Как легко найти выбросы в excel
Выброс — это наблюдение , которое аномально далеко от других значений в наборе данных.
Выбросы могут быть проблематичными, поскольку они могут повлиять на результаты анализа.
Мы будем использовать следующий набор данных в Excel, чтобы продемонстрировать два метода поиска выбросов:
Связанный: Как рассчитать среднее значение без учета выбросов в Excel
Метод 1. Используйте межквартильный размах.
Межквартильный размах (IQR) — это разница между 75-м процентилем (Q3) и 25-м процентилем (Q1) в наборе данных. Он измеряет распределение средних 50% значений.
Мы можем определить наблюдение как выброс, если оно в 1,5 раза превышает межквартильный размах выше третьего квартиля (Q3) или в 1,5 раза превышает межквартильный размах ниже первого квартиля (Q1).
На следующем изображении показано, как рассчитать межквартильный размах в Excel:
Затем мы можем использовать формулу, упомянутую выше, чтобы присвоить «1» любым выбросам в наборе данных:
Мы видим, что только одно значение — 164 — оказывается выбросом в этом наборе данных.
Метод 2. Используйте z-показатели.
Z-показатель показывает, на сколько стандартных отклонений данное значение отличается от среднего. Для расчета z-показателя мы используем следующую формулу:
z = (X – µ)/σ
Золото:
- X — одно значение необработанных данных
- μ — среднее значение генеральной совокупности
- σ — стандартное отклонение генеральной совокупности.
Мы можем определить наблюдение как выброс, если оно имеет z-показатель меньше -3 или больше 3.
На следующем изображении показано, как рассчитать среднее и стандартное отклонение набора данных в Excel:
Затем мы можем использовать среднее и стандартное отклонение, чтобы найти z-показатель для каждого отдельного значения в наборе данных:
Затем мы можем присвоить «1» любому значению, z-показатель которого меньше -3 или больше 3:
Используя этот метод, мы видим, что в наборе данных нет выбросов.
Примечание. Иногда вместо 3 используется z-показатель 2,5. В этом случае отдельное значение 164 будет считаться выбросом, поскольку его z-показатель превышает 2,5.
При использовании метода z-показателя на свое усмотрение определите, какое значение z-показателя вы считаете выбросом.
Как обрабатывать выбросы
Если в ваших данных присутствует выброс, у вас есть несколько вариантов:
1. Убедитесь, что выброс не является результатом ошибки ввода данных.
Иногда человек просто вводит неправильное значение данных при сохранении данных. Если присутствует выброс, сначала убедитесь, что значение введено правильно и не является ошибкой.
2. Удалите выброс.
Если значение действительно является выбросом, вы можете удалить его, если оно окажет существенное влияние на общий анализ. Просто не забудьте упомянуть в своем итоговом отчете или анализе, что вы удалили выбросы.
3. Присвойте выбросу новое значение .
Если выброс является результатом ошибки ввода данных, вы можете решить присвоить ему новое значение, например среднее значение или медиану набора данных.