Нетипові значення (викиди)

У цій статті пояснюється, що таке викиди та як вони обчислюються. Крім того, ви можете обчислити викиди для будь-якої вибірки даних за допомогою онлайн-калькулятора.

Що таке викиди?

У статистиці викиди , які також називаються викидами або викидами , — це значення, які значно відрізняються від решти набору даних. Іншими словами, викид – це аномальне значення, яке сильно відрізняється від решти значень у вибірці.

Важливо ідентифікувати викиди у вибірці, оскільки вони можуть суттєво вплинути на розрахунок статистичних показників.

Наприклад, якщо у нас є ряд даних [1, 3, 5, 2, 79, 4, 8, 6], число 79 явно викидається. Тому що його значення надзвичайно вище, ніж інші дані. У цьому випадку середнє, включаючи викид, становить 13,5, тоді як середнє без викиду становитиме 4,14. Як бачите, один викид вже суттєво впливає на результат статистичного вимірювання.

 1, \ 3, \ 5, \ 2, \ 79, \ 4, \ 8, \ 6 \quad \color{orange}\bm{\longrightarrow}\color{black}\quad \text{Valor at\'ipico: } 79

Як правило, викиди легко розрізнити на діаграмах розсіювання, оскільки вони ізольовані від решти даних. Подивіться на наступну діаграму розсіювання, викид дуже відокремлений від решти значень:

діаграма розсіювання викидів або інші

👉 Ви можете скористатися калькулятором нижче, щоб знайти викиди для будь-якого набору даних.

Як обчислити викиди

Щоб обчислити викиди із вибірки даних, потрібно виконати наступні кроки:

  1. Обчисліть квартилі набору даних.
  2. Обчисліть інтерквартильний діапазон даних.
  3. Нетиповими значеннями (викидами) будуть вважатися значення, які відповідають одній із наступних умов:

На наведеній нижче коробковій діаграмі ви можете побачити два викиди відповідно до цього критерію, представлені графічно:

викиди коробкової діаграми

Примітка. Майте на увазі, що існує кілька критеріїв для визначення меж, за якими дані вважаються викидами. У цій статті критерій Тьюкі був взятий за еталонний, оскільки він є найбільш використовуваним.

Приклад викидів

Розглядаючи визначення викиду, у цьому розділі ми побачимо практичний приклад того, як ідентифікувати викиди в ряді даних.

  • Обчисліть викиди або викиди з наступного набору статистичних даних.

Спочатку ми обчислюємо три квартилі набору даних:

Q_1=4,06

Q_2=4,38

Q_3=4,66

Коли ми знаходимо три квартилі, ми знаходимо інтерквартильний діапазон, віднімаючи квартиль 3 мінус квартиль 1:

IQR=Q_3-Q_1=4,66-4,06=0,6

А тепер обчислюємо межі, встановлені викидами. Для цього ми використовуємо формули, пояснені в розділі вище:

Q_1-1,5\cdot IQR=4,06-1,5\cdot 0,6=3,16

Q_3+1,5\cdot IQR=4,66+1,5\cdot 0,6=5,56

Отже, якщо будь-яке зі значень менше 3,16, це викид. Подібним чином, якщо значення перевищує 5,56, воно також є викидом.

Підсумовуючи, у цьому випадку ми маємо два крайніх значення, оскільки 3,02 менше за 3,16, а 5,71 більше за 5,56.

\text{Valores at\'ipicos} =\Bigl\{3,02 \ ; \ 5,71\Bigr\}

Калькулятор викидів

Введіть набір статистичних даних у наступний калькулятор, щоб обчислити його викиди, якщо такі є. Дані повинні бути розділені пробілом і введені крапкою як десятковим роздільником.

Причини викидів

Існує кілька можливих причин викидів, найпоширеніші з яких:

  • Прилад, який використовувався для вимірювання, зламався або зазнав аварії.
  • Вимірювана частина мала дефект через ненормальну причину.
  • Під час передачі або транскрипції даних сталася помилка.
  • Сталася людська помилка. Незалежно від вжитих запобіжних заходів людські помилки не є цілком неминучими, тому ненормальні значення все ще можуть існувати.

Це найпоширеніші причини, але очевидно, що причина може бути будь-якою. Так само слід враховувати, що коли статистичне дослідження проводиться з численними спостереженнями, поява деяких викидів є нормою.

Що робити з викидами

Поширене запитання, коли ми стикаємося з викидом, полягає в тому, що нам робити з ним. Чи слід видалити викиди з вибірки?

Вважається, що викиди слід завжди усувати, оскільки це дані, які не схожі на решту набору. Однак, незважаючи на те, що викиди сильно впливають на результати деяких статистичних заходів, це не означає, що їх слід завжди усувати.

Загалом, викиди слід видаляти, лише якщо ми знаємо, що причина аномалії дійсно виправдана, і, отже, ці викиди є спостереженнями, які не відповідають тому, що вивчається.

Це особливо важливо при невеликих розмірах вибірки, оскільки тоді екстремальні значення більше впливають на статистичні показники.

Наприклад, якщо довжина частини виробу вимірюється для здійснення контролю якості, логічно, що якщо раптово з’явиться інший тип виробу і буде виміряна та сама частина, виміряне значення буде сильно відрізнятися від попередніх і, ймовірно, буде бути винятком. У цьому випадку викид можна виключити, оскільки його причина відома, а також відомо, що виміряні дані не є частиною генеральної сукупності, призначеної для аналізу.

Додати коментар

Ваша e-mail адреса не оприлюднюватиметься. Обов’язкові поля позначені *