Як легко знайти викиди в excel
Викид — це спостереження , яке аномально віддалено від інших значень у наборі даних.
Викиди можуть бути проблематичними, оскільки вони можуть вплинути на результати аналізу.
Ми використаємо такий набір даних у Excel, щоб продемонструвати два методи пошуку викидів:
Пов’язане: Як обчислити середнє без урахування викидів у Excel
Спосіб 1: Використовуйте інтерквартильний діапазон
Інтерквартильний діапазон (IQR) — це різниця між 75-м процентилем (Q3) і 25-м процентилем (Q1) у наборі даних. Він вимірює розподіл середніх 50% значень.
Ми можемо визначити спостереження як викид, якщо воно в 1,5 рази перевищує інтерквартильний діапазон вище третього квартиля (Q3) або в 1,5 рази перевищує інтерквартильний діапазон нижче першого квартиля (Q1).
На наступному зображенні показано, як обчислити інтерквартильний діапазон у Excel:
Тоді ми можемо використати згадану вище формулу, щоб призначити «1» будь-яким викидам у наборі даних:
Ми бачимо, що лише одне значення – 164 – виявляється викидом у цьому наборі даних.
Спосіб 2. Використовуйте z-показники
Z-показник показує, скільки стандартних відхилень дане значення має від середнього. Ми використовуємо наступну формулу для розрахунку z-показника:
z = (X – μ) / σ
золото:
- X – це одне значення необроблених даних
- μ – середнє значення сукупності
- σ — стандартне відхилення сукупності
Ми можемо визначити спостереження як викид, якщо його z-показник менший за -3 або більший за 3.
На наступному зображенні показано, як обчислити середнє значення та стандартне відхилення набору даних у Excel:
Потім ми можемо використовувати середнє значення та стандартне відхилення, щоб знайти z-показник для кожного окремого значення в наборі даних:
Тоді ми можемо призначити «1» будь-якому значенню, z-показник якого менше -3 або більше 3:
Використовуючи цей метод, ми бачимо, що в наборі даних немає викидів.
Примітка. Іноді замість 3 використовується z-показник 2,5. У цьому випадку окреме значення 164 вважатиметься викидом, оскільки воно має z-показник більше 2,5.
Використовуючи метод z-показника, визначте на свій розсуд, яке значення z-показника ви вважаєте викидом.
Як працювати з викидами
Якщо у ваших даних присутній викид, у вас є кілька варіантів:
1. Переконайтеся, що викид не є результатом помилки введення даних.
Іноді особа просто вводить неправильне значення даних під час збереження даних. Якщо присутній викид, спочатку переконайтеся, що значення введено правильно і що це не помилка.
2. Видаліть викид.
Якщо значення дійсно викидається, ви можете видалити його, якщо воно матиме значний вплив на загальний аналіз. Просто не забудьте зазначити у своєму остаточному звіті чи аналізі, що ви усунули викид.
3. Призначте нове значення викиду .
Якщо викид є результатом помилки введення даних, ви можете вирішити призначити йому нове значення, наприклад середнє або медіана набору даних.