Как легко найти выбросы в excel


Выброс — это наблюдение , которое аномально далеко от других значений в наборе данных.

Выбросы могут быть проблематичными, поскольку они могут повлиять на результаты анализа.

Мы будем использовать следующий набор данных в Excel, чтобы продемонстрировать два метода поиска выбросов:

Связанный: Как рассчитать среднее значение без учета выбросов в Excel

Метод 1. Используйте межквартильный размах.

Межквартильный размах (IQR) — это разница между 75-м процентилем (Q3) и 25-м процентилем (Q1) в наборе данных. Он измеряет распределение средних 50% значений.

Мы можем определить наблюдение как выброс, если оно в 1,5 раза превышает межквартильный размах выше третьего квартиля (Q3) или в 1,5 раза превышает межквартильный размах ниже первого квартиля (Q1).

На следующем изображении показано, как рассчитать межквартильный размах в Excel:

Затем мы можем использовать формулу, упомянутую выше, чтобы присвоить «1» любым выбросам в наборе данных:

Найдите выбросы в Excel

Мы видим, что только одно значение — 164 — оказывается выбросом в этом наборе данных.

Метод 2. Используйте z-показатели.

Z-показатель показывает, на сколько стандартных отклонений данное значение отличается от среднего. Для расчета z-показателя мы используем следующую формулу:

z = (X – µ)/σ

Золото:

  • X — одно значение необработанных данных
  • μ — среднее значение генеральной совокупности
  • σ — стандартное отклонение генеральной совокупности.

Мы можем определить наблюдение как выброс, если оно имеет z-показатель меньше -3 или больше 3.

На следующем изображении показано, как рассчитать среднее и стандартное отклонение набора данных в Excel:

Затем мы можем использовать среднее и стандартное отклонение, чтобы найти z-показатель для каждого отдельного значения в наборе данных:

Затем мы можем присвоить «1» любому значению, z-показатель которого меньше -3 или больше 3:

Поиск выбросов в Excel с использованием Z-показателей

Используя этот метод, мы видим, что в наборе данных нет выбросов.

Примечание. Иногда вместо 3 используется z-показатель 2,5. В этом случае отдельное значение 164 будет считаться выбросом, поскольку его z-показатель превышает 2,5.

При использовании метода z-показателя на свое усмотрение определите, какое значение z-показателя вы считаете выбросом.

Как обрабатывать выбросы

Если в ваших данных присутствует выброс, у вас есть несколько вариантов:

1. Убедитесь, что выброс не является результатом ошибки ввода данных.

Иногда человек просто вводит неправильное значение данных при сохранении данных. Если присутствует выброс, сначала убедитесь, что значение введено правильно и не является ошибкой.

2. Удалите выброс.

Если значение действительно является выбросом, вы можете удалить его, если оно окажет существенное влияние на общий анализ. Просто не забудьте упомянуть в своем итоговом отчете или анализе, что вы удалили выбросы.

3. Присвойте выбросу новое значение .

Если выброс является результатом ошибки ввода данных, вы можете решить присвоить ему новое значение, например среднее значение или медиану набора данных.

Добавить комментарий

Ваш адрес email не будет опубликован. Обязательные поля помечены *