Як знайти викиди за допомогою інтерквартильного діапазону
Викид — це спостереження , яке аномально віддалено від інших значень у наборі даних. Викиди можуть бути проблематичними, оскільки вони можуть вплинути на результати аналізу.
Поширеним способом виявлення викидів у наборі даних є використання інтерквартильного діапазону .
Інтерквартильний діапазон, часто скорочено IQR, є різницею між 25-м процентилем (Q1) і 75-м процентилем (Q3) у наборі даних. Він вимірює розподіл середніх 50% значень.
Популярним методом є оголошення спостереження як викиду, якщо воно має значення в 1,5 рази вище за IQR або в 1,5 рази нижче за IQR.
Цей підручник містить покроковий приклад того, як знайти викиди в наборі даних за допомогою цього методу.
Крок 1: Створіть дані
Припустимо, що ми маємо наступний набір даних:
Крок 2: Визначте перший і третій квартиль
Перший квартиль виявляється 5 , а третій квартиль виявляється 20,75 .
Таким чином, міжквартильний діапазон виходить 20,75 -5 = 15,75 .
Крок 3: Знайдіть нижню та верхню межі
Нижня межа розраховується наступним чином:
Нижня межа = Q1 – 1,5*IQR = 5 – 1,5*15,75 = -18,625
А верхня межа розраховується наступним чином:
Верхня межа = Q3 + 1,5*IQR = 20,75 + 1,5*15,75 = 44,375
Крок 4: Визначте викиди
Єдиним спостереженням у наборі даних зі значенням нижче нижньої або вище верхньої межі є 46 . Отже, це єдиний викид у цьому наборі даних.
Примітка. Ви можете використовувати цей калькулятор меж викидів, щоб автоматично знаходити верхню та нижню межі викидів у певному наборі даних.
Як знайти викиди на практиці
У наступних посібниках пояснюється, як знайти викиди за допомогою інтерквартильного діапазону в різних статистичних програмах:
Як знайти викиди в Excel
Як знайти викиди в R
Як знайти викиди в Python
Як знайти викиди в SPSS