Как найти выбросы, используя межквартильный размах
Выброс — это наблюдение , которое аномально далеко от других значений в наборе данных. Выбросы могут быть проблематичными, поскольку они могут повлиять на результаты анализа.
Распространенным способом обнаружения выбросов в наборе данных является использование межквартильного диапазона .
Межквартильный диапазон, часто сокращенно IQR, представляет собой разницу между 25-м процентилем (Q1) и 75-м процентилем (Q3) в наборе данных. Он измеряет распределение средних 50% значений.
Популярный метод — объявить наблюдение выбросом, если оно имеет значение в 1,5 раза выше IQR или в 1,5 раза ниже IQR.
В этом руководстве представлен пошаговый пример того, как найти выбросы в наборе данных с помощью этого метода.
Шаг 1. Создайте данные
Предположим, у нас есть следующий набор данных:
Шаг 2. Определите первый и третий квартиль.
Первый квартиль оказывается равным 5 , а третий квартиль — 20,75 .
Таким образом, межквартильный размах оказывается равным 20,75-5= 15,75 .
Шаг 3. Найдите нижний и верхний пределы.
Нижний предел рассчитывается следующим образом:
Нижний предел = Q1 – 1,5*IQR = 5 – 1,5*15,75 = -18,625
А верхний предел рассчитывается следующим образом:
Верхний предел = Q3 + 1,5*IQR = 20,75 + 1,5*15,75 = 44,375
Шаг 4. Определите выбросы
Единственное наблюдение в наборе данных со значением ниже нижнего предела или выше верхнего предела — 46 . Так что это единственный выброс в этом наборе данных.
Примечание. Этот калькулятор границ выбросов можно использовать для автоматического нахождения верхних и нижних границ выбросов в заданном наборе данных.
Как найти выбросы на практике
В следующих руководствах объясняется, как найти выбросы с использованием межквартильного диапазона в различных статистических программах:
Как найти выбросы в Excel
Как найти выбросы в R
Как найти выбросы в Python
Как найти выбросы в SPSS