Як виконати дослідницький аналіз даних у excel


Одним із перших кроків у будь-якому проекті аналізу даних є пошуковий аналіз даних .

Це передбачає дослідження набору даних трьома способами:

1. Узагальніть набір даних за допомогою описової статистики.

2. Візуалізуйте набір даних за допомогою графіків.

3. Визначте пропущені значення.

Виконуючи ці три дії, ви можете зрозуміти, як розподіляються значення в наборі даних, і виявити будь-які проблемні значення, перш ніж продовжити перевірку гіпотези , підгонку регресійної моделі або виконання статистичного моделювання.

У наступному покроковому прикладі показано, як виконати пошуковий аналіз даних у Excel.

Крок 1: Створіть набір даних

Спочатку давайте створимо простий набір даних, що містить інформацію про 10 різних баскетболістів:

Цей набір даних містить три змінні (очки, підбирання, передачі), а деякі змінні мають порожні значення або значення NA, що часто зустрічається в наборах реальних даних.

Крок 2: Узагальніть дані

Далі ми можемо обчислити середнє, медіане, квартиль, мінімальне та максимальне значення для кожної з трьох змінних у цьому наборі даних:

Ось формула, яку ми використовували для кожної клітинки в стовпці B:

  • B13 : =СЕРЕДНЄ ( B2:B11 )
  • B14 : =МЕДІАН( B2:B11 )
  • B15 : =КВАРТИЛЬ ( B2:B11 , 1)
  • B16 : =КВАРТИЛЬ ( B2:B11 , 3)
  • B17 : =MIN( B2:B11 )
  • B18 : =MAX( B2:B11 )

Потім ми перетягнули кожну формулу вправо, щоб ми могли обчислити однакові показники для значень у стовпцях C і D.

Обчислюючи цю описову статистику для кожної змінної, ми можемо отримати гарне розуміння розподілу значень для кожної змінної.

Примітка : кожна формула автоматично ігнорує порожні значення або значення NA під час обчислення кожної описової статистики.

Крок 3: Візуалізуйте дані

Ми також можемо створювати графіки для візуалізації значень набору даних.

Наприклад, щоб візуалізувати розподіл значень для змінної Points, ми можемо виділити значення в діапазоні клітинок B2:B11 , потім клацнути вкладку «Вставити» на верхній стрічці, а потім клацнути піктограму «Гістограма» в групі «Графіка» . :

Автоматично буде створено наступну гістограму:

Ця гістограма дозволяє візуалізувати розподіл очок, набраних гравцями.

Наприклад, ми можемо побачити:

  • 4 гравці набрали від 10 до 15 очок.
  • 1 гравець набрав від 15 до 20 очок.
  • 2 гравці набрали від 20 до 25 очок.
  • 3 гравці набрали від 25 до 30 очок.

Ми можемо повторити цей процес для кожної змінної в нашому наборі даних, щоб візуалізувати розподіл значень для кожної змінної.

Крок 4: Визначте відсутні значення

Ми також можемо використовувати таку формулу, щоб підрахувати кількість відсутніх значень у стовпці B:

 =SUMPRODUCT(--NOT(ISNUMBER( B2:B11 )))

Ми можемо ввести цю формулу в клітинку B19 , а потім перетягнути її вправо, щоб обчислити кількість відсутніх значень для кожної змінної в наборі даних:

З результату ми бачимо:

  • У стовпці «Бали» відсутні 0 значень.
  • У стовпці підбирань відсутні 2 значення.
  • У стовпці «Допомога» відсутнє 1 значення.

Зараз ми завершили базовий дослідницький аналіз даних у цьому наборі даних і отримали досить добре розуміння того, як розподіляються значення для кожної змінної в цьому наборі даних.

Пов’язане: Як замінити порожні клітинки на нуль в Excel

Додаткові ресурси

У наступних посібниках пояснюється, як виконувати інші типові завдання в Excel:

Як обчислити зведення п’яти чисел в Excel
Як розрахувати середнє по групах в Excel
Як розрахувати максимальне значення на групу в Excel

Додати коментар

Ваша e-mail адреса не оприлюднюватиметься. Обов’язкові поля позначені *