Как выполнить исследовательский анализ данных в excel


Одним из первых шагов в любом проекте анализа данных является исследовательский анализ данных .

Это предполагает изучение набора данных тремя способами:

1. Обобщить набор данных, используя описательную статистику.

2. Визуализируйте набор данных с помощью графиков.

3. Определите недостающие значения.

Выполняя эти три действия, вы можете понять, как распределяются значения в наборе данных, и обнаружить любые проблемные значения, прежде чем приступить к проверке гипотез , подбору регрессионной модели или выполнению статистического моделирования.

В следующем пошаговом примере показано, как выполнить исследовательский анализ данных в Excel.

Шаг 1. Создайте набор данных

Для начала давайте создадим простой набор данных, содержащий информацию о 10 разных баскетболистах:

Этот набор данных содержит три переменные (очки, подборы, передачи), а некоторые переменные имеют пустые значения или значения NA, что часто встречается в реальных наборах данных.

Шаг 2: Обобщите данные

Далее мы можем вычислить среднее, медиану, квартиль, минимальное и максимальное значения для каждой из трех переменных в этом наборе данных:

Вот формула, которую мы использовали для каждой ячейки в столбце B:

  • B13 : =СРЕДНЕЕ( B2:B11 )
  • B14 : =МЕДИАНА( B2:B11 )
  • B15 : =КВАРТИЛЬ( B2:B11 , 1)
  • B16 : =КВАРТИЛЬ( B2:B11 , 3)
  • B17 : =МИН( B2:B11 )
  • B18 : =МАКС( B2:B11 )

Затем мы перетащили каждую формулу вправо, чтобы можно было вычислить одинаковые метрики для значений в столбцах C и D.

Рассчитав эту описательную статистику для каждой переменной, мы можем получить хорошее представление о распределении значений каждой переменной.

Примечание . Каждая формула автоматически игнорирует пустые значения или значения NA при расчете каждой описательной статистики.

Шаг 3. Визуализируйте данные

Мы также можем создавать графики для визуализации значений набора данных.

Например, чтобы визуализировать распределение значений переменной Points, мы можем выделить значения в диапазоне ячеек B2:B11 , затем щелкнуть вкладку «Вставка» на верхней ленте, затем щелкнуть значок «Гистограмма» в группе «Графика» . :

Следующая гистограмма будет создана автоматически:

Эта гистограмма позволяет визуализировать распределение очков, набранных игроками.

Например, мы можем увидеть:

  • 4 игрока набрали от 10 до 15 очков.
  • 1 игрок набрал от 15 до 20 очков.
  • 2 игрока набрали от 20 до 25 очков.
  • 3 игрока набрали от 25 до 30 очков.

Мы можем повторить этот процесс для каждой переменной в нашем наборе данных, чтобы визуализировать распределение значений для каждой переменной.

Шаг 4. Определите недостающие значения

Мы также можем использовать следующую формулу для подсчета количества пропущенных значений в столбце B:

 =SUMPRODUCT(--NOT(ISNUMBER( B2:B11 )))

Мы можем ввести эту формулу в ячейку B19 , а затем перетащить ее вправо, чтобы вычислить количество пропущенных значений для каждой переменной в наборе данных:

По результату мы видим:

  • В столбце Баллы 0 пропущенных значений.
  • В столбце «Отскоки» пропущено 2 значения.
  • В столбце «Помощь» отсутствует 1 значение.

Мы завершили базовый исследовательский анализ данных этого набора данных и получили довольно хорошее представление о том, как распределяются значения для каждой переменной в этом наборе данных.

Связанный: Как заменить пустые ячейки нулем в Excel

Дополнительные ресурсы

В следующих руководствах объясняется, как выполнять другие распространенные задачи в Excel:

Как рассчитать сумму пяти чисел в Excel
Как посчитать среднее значение по группе в Excel
Как рассчитать максимальное значение для группы в Excel

Добавить комментарий

Ваш адрес email не будет опубликован. Обязательные поля помечены *