Полное руководство: когда удалять выбросы в данных
Выброс — это наблюдение , которое аномально далеко от других значений в наборе данных.
Выбросы могут быть проблематичными, поскольку они могут повлиять на результаты анализа.
Однако они также могут дать представление об изучаемых вами данных, поскольку могут выявить аномальные случаи или людей с редкими чертами.
В любом анализе вы должны решить, удалять или сохранять выбросы.
К счастью, вы можете использовать следующую блок-схему, которая поможет вам принять решение:
Давайте подробнее рассмотрим каждый вопрос в блок-схеме.
Является ли выброс результатом ошибки при вводе данных?
Иногда выбросы в наборе данных являются просто результатом ошибки ввода данных.
Например, предположим, что биолог собирает данные о высоте определенного вида растений и записывает следующие данные:
- 6,83 дюйма
- 7,51 дюйма
- 5,21 дюйма
- 5,84 дюйма
- 7,83 дюйма
- 755 дюймов
- 6,53 дюйма
- 6,31 дюйма
- 5,91 дюйма
Очевидно, что запись о 755 дюймах является отклонением и, вероятно, является результатом ошибки при вводе данных. Скорее всего, высота должна была быть 7,55 дюйма, но ее просто ввели неправильно.
Если бы биолог сохранил это наблюдение и рассчитал описательную статистику , такую как средняя высота растений в образце, это наблюдение сильно исказило бы результаты и дало бы неточную картину истинной средней высоты растений.
В этом сценарии (и сценариях, подобных этому) имеет смысл удалить этот выброс из набора данных, поскольку это ошибка, а не допустимая точка данных для включения в анализ.
Влияет ли выброс существенно на результаты анализа?
Если наблюдение является истинным выбросом, а не просто результатом ошибки ввода данных, то нам необходимо проверить, влияет ли выброс на результаты анализа.
Например, предположим, что биолог изучает взаимосвязь между удобрениями и высотой растений. Она хочет подобрать простую модель линейной регрессии , используя удобрение в качестве предикторной переменной и высоту растения в качестве переменной отклика .
Он собирает следующие данные для 12 различных заводов:
Ясно, что последнее наблюдение ошибочно.
Однако если мы создадим диаграмму рассеяния для визуализации этого набора данных, мы увидим, что линия регрессии не сильно изменится независимо от того, включим ли мы выброс или нет:
В этом сценарии выброс фактически не нарушает ни одно из предположений модели линейной регрессии , поэтому мы можем сохранить его в наборе данных.
Однако предположим, что у нас есть следующий выброс в данных:
Очевидно, что этот выброс существенно влияет на линию регрессии, поэтому мы можем подогнать одну модель регрессии с выбросом и одну без него, а затем сообщить о результатах обеих моделей регрессии.
Влияет ли выброс на допущения, сделанные в анализе?
Если выброс не является результатом ошибки ввода данных и не оказывает существенного влияния на результаты анализа, тогда мы должны задаться вопросом, влияет ли выброс на гипотезы, сделанные в анализе. анализ.
Если это не влияет на предположения, мы можем просто сохранить это в данных.
Однако если это повлияет на предположения, у нас есть несколько вариантов:
1. Удалите его. Мы можем просто удалить его из данных и отметить при составлении отчета о результатах.
2. Выполните преобразование данных. Вместо удаления выброса мы могли бы попробовать выполнить преобразование данных, например извлечь квадратный корень или логарифмировать все значения в данных. Было показано, что это уменьшает выбросы и часто приводит к более нормальному распределению данных.
Независимо от того, как вы решите обрабатывать выбросы в своих данных, вы должны отметить свое решение в результатах анализа вместе со своими рассуждениями.
Дополнительные ресурсы
В следующих руководствах объясняется, как найти и удалить выбросы в различных статистических программах:
Как найти выбросы в Excel
Как найти выбросы в Google Таблицах
Как найти выбросы в R
Как найти выбросы в Python
Как найти выбросы в SPSS