Повний посібник: коли потрібно видаляти викиди в даних
Викид — це спостереження , яке аномально віддалено від інших значень у наборі даних.
Викиди можуть бути проблематичними, оскільки вони можуть вплинути на результати аналізу.
Однак вони також можуть надати уявлення про дані, які ви вивчаєте, оскільки можуть виявити аномальні випадки або людей із рідкісними рисами.
Під час будь-якого аналізу ви повинні вирішити, видалити чи залишити викиди.
На щастя, ви можете скористатися наведеною нижче блок-схемою, яка допоможе вам прийняти рішення.
Давайте детальніше розглянемо кожне запитання блок-схеми.
Чи є викид результатом помилки введення даних?
Іноді викиди в наборі даних є просто результатом помилки введення даних.
Наприклад, припустимо, що біолог збирає дані про висоту певного виду рослин і записує такі дані:
- 6,83 дюйма
- 7,51 дюймів
- 5,21 дюймів
- 5,84 дюйма
- 7,83 дюйма
- 755 дюймів
- 6,53 дюйма
- 6,31 дюймів
- 5,91 дюймів
Очевидно, що запис для 755 дюймів є викидом і, ймовірно, є результатом помилки введення даних. Швидше за все, висота мала бути 7,55 дюймів, але її просто ввели неправильно.
Якби біолог зберіг це спостереження та обчислив описову статистику, наприклад середню висоту рослин у зразку, це спостереження значно спотворило б результати та дало неточну картину справжньої середньої висоти рослини.
У цьому сценарії (і сценаріях, подібних до цього) має сенс видалити цей викид із набору даних, оскільки це помилка, а не законна точка даних для включення в аналіз.
Чи суттєво впливає викид на результати аналізу?
Якщо спостереження є справжнім викидом, а не просто результатом помилки введення даних, тоді нам потрібно перевірити, чи впливає викид на результати аналізу.
Наприклад, припустимо, що біолог вивчає зв’язок між добривом і висотою рослини. Вона хоче підібрати просту модель лінійної регресії , використовуючи добриво як змінну прогнозу та висоту рослини як змінну відповіді .
Він збирає такі дані для 12 різних фабрик:
Зрозуміло, що останнє спостереження є помилковим.
Однак, якщо ми створимо діаграму розсіювання для візуалізації цього набору даних, ми побачимо, що лінія регресії не сильно зміниться незалежно від того, чи ми включимо викид:
У цьому сценарії викид фактично не порушує жодних припущень моделі лінійної регресії , тому ми можемо зберегти його в наборі даних.
Однак припустімо, що ми маємо такий викид у даних:
Очевидно, що цей викид суттєво впливає на лінію регресії, тому ми можемо підібрати одну модель регресії з викидом і одну без нього, а потім повідомити про результати обох регресійних моделей.
Чи впливає викид на припущення, зроблені в аналізі?
Якщо викид не є результатом помилки введення даних і суттєво не впливає на результати аналізу, тоді ми повинні запитати, чи впливає викид на гіпотези, висунуті під час аналізу. аналіз.
Якщо це не впливає на припущення, ми можемо просто зберегти це в даних.
Однак, якщо це впливає на припущення, у нас є кілька варіантів:
1. Видаліть його. Ми можемо просто видалити його з даних і зробити нотатку під час звітування про результати.
2. Виконайте перетворення даних. Замість того, щоб видаляти викид, ми могли б спробувати виконати перетворення даних, наприклад, витягти квадратний корінь або логарифмувати всі значення в даних. Було показано, що це зменшує викиди та часто робить дані більш нормальними .
Незалежно від того, як ви вирішите обробляти викиди у своїх даних, ви повинні зазначити своє рішення в результатах аналізу разом із міркуваннями.
Додаткові ресурси
У наступних посібниках пояснюється, як знайти та видалити викиди в різних статистичних програмах:
Як знайти викиди в Excel
Як знайти викиди в Google Таблицях
Як знайти викиди в R
Як знайти викиди в Python
Як знайти викиди в SPSS