Як виконати дослідницький аналіз даних у excel
Одним із перших кроків у будь-якому проекті аналізу даних є пошуковий аналіз даних .
Це передбачає дослідження набору даних трьома способами:
1. Узагальніть набір даних за допомогою описової статистики.
2. Візуалізуйте набір даних за допомогою графіків.
3. Визначте пропущені значення.
Виконуючи ці три дії, ви можете зрозуміти, як розподіляються значення в наборі даних, і виявити будь-які проблемні значення, перш ніж продовжити перевірку гіпотези , підгонку регресійної моделі або виконання статистичного моделювання.
У наступному покроковому прикладі показано, як виконати пошуковий аналіз даних у Excel.
Крок 1: Створіть набір даних
Спочатку давайте створимо простий набір даних, що містить інформацію про 10 різних баскетболістів:
Цей набір даних містить три змінні (очки, підбирання, передачі), а деякі змінні мають порожні значення або значення NA, що часто зустрічається в наборах реальних даних.
Крок 2: Узагальніть дані
Далі ми можемо обчислити середнє, медіане, квартиль, мінімальне та максимальне значення для кожної з трьох змінних у цьому наборі даних:
Ось формула, яку ми використовували для кожної клітинки в стовпці B:
- B13 : =СЕРЕДНЄ ( B2:B11 )
- B14 : =МЕДІАН( B2:B11 )
- B15 : =КВАРТИЛЬ ( B2:B11 , 1)
- B16 : =КВАРТИЛЬ ( B2:B11 , 3)
- B17 : =MIN( B2:B11 )
- B18 : =MAX( B2:B11 )
Потім ми перетягнули кожну формулу вправо, щоб ми могли обчислити однакові показники для значень у стовпцях C і D.
Обчислюючи цю описову статистику для кожної змінної, ми можемо отримати гарне розуміння розподілу значень для кожної змінної.
Примітка : кожна формула автоматично ігнорує порожні значення або значення NA під час обчислення кожної описової статистики.
Крок 3: Візуалізуйте дані
Ми також можемо створювати графіки для візуалізації значень набору даних.
Наприклад, щоб візуалізувати розподіл значень для змінної Points, ми можемо виділити значення в діапазоні клітинок B2:B11 , потім клацнути вкладку «Вставити» на верхній стрічці, а потім клацнути піктограму «Гістограма» в групі «Графіка» . :
Автоматично буде створено наступну гістограму:
Ця гістограма дозволяє візуалізувати розподіл очок, набраних гравцями.
Наприклад, ми можемо побачити:
- 4 гравці набрали від 10 до 15 очок.
- 1 гравець набрав від 15 до 20 очок.
- 2 гравці набрали від 20 до 25 очок.
- 3 гравці набрали від 25 до 30 очок.
Ми можемо повторити цей процес для кожної змінної в нашому наборі даних, щоб візуалізувати розподіл значень для кожної змінної.
Крок 4: Визначте відсутні значення
Ми також можемо використовувати таку формулу, щоб підрахувати кількість відсутніх значень у стовпці B:
=SUMPRODUCT(--NOT(ISNUMBER( B2:B11 )))
Ми можемо ввести цю формулу в клітинку B19 , а потім перетягнути її вправо, щоб обчислити кількість відсутніх значень для кожної змінної в наборі даних:
З результату ми бачимо:
- У стовпці «Бали» відсутні 0 значень.
- У стовпці підбирань відсутні 2 значення.
- У стовпці «Допомога» відсутнє 1 значення.
Зараз ми завершили базовий дослідницький аналіз даних у цьому наборі даних і отримали досить добре розуміння того, як розподіляються значення для кожної змінної в цьому наборі даних.
Пов’язане: Як замінити порожні клітинки на нуль в Excel
Додаткові ресурси
У наступних посібниках пояснюється, як виконувати інші типові завдання в Excel:
Як обчислити зведення п’яти чисел в Excel
Як розрахувати середнє по групах в Excel
Як розрахувати максимальне значення на групу в Excel