Як легко знайти викиди в excel


Викид — це спостереження , яке аномально віддалено від інших значень у наборі даних.

Викиди можуть бути проблематичними, оскільки вони можуть вплинути на результати аналізу.

Ми використаємо такий набір даних у Excel, щоб продемонструвати два методи пошуку викидів:

Пов’язане: Як обчислити середнє без урахування викидів у Excel

Спосіб 1: Використовуйте інтерквартильний діапазон

Інтерквартильний діапазон (IQR) — це різниця між 75-м процентилем (Q3) і 25-м процентилем (Q1) у наборі даних. Він вимірює розподіл середніх 50% значень.

Ми можемо визначити спостереження як викид, якщо воно в 1,5 рази перевищує інтерквартильний діапазон вище третього квартиля (Q3) або в 1,5 рази перевищує інтерквартильний діапазон нижче першого квартиля (Q1).

На наступному зображенні показано, як обчислити інтерквартильний діапазон у Excel:

Тоді ми можемо використати згадану вище формулу, щоб призначити «1» будь-яким викидам у наборі даних:

Знайдіть викиди в Excel

Ми бачимо, що лише одне значення – 164 – виявляється викидом у цьому наборі даних.

Спосіб 2. Використовуйте z-показники

Z-показник показує, скільки стандартних відхилень дане значення має від середнього. Ми використовуємо наступну формулу для розрахунку z-показника:

z = (X – μ) / σ

золото:

  • X – це одне значення необроблених даних
  • μ – середнє значення сукупності
  • σ — стандартне відхилення сукупності

Ми можемо визначити спостереження як викид, якщо його z-показник менший за -3 або більший за 3.

На наступному зображенні показано, як обчислити середнє значення та стандартне відхилення набору даних у Excel:

Потім ми можемо використовувати середнє значення та стандартне відхилення, щоб знайти z-показник для кожного окремого значення в наборі даних:

Тоді ми можемо призначити «1» будь-якому значенню, z-показник якого менше -3 або більше 3:

Пошук викидів у Excel за допомогою Z-показників

Використовуючи цей метод, ми бачимо, що в наборі даних немає викидів.

Примітка. Іноді замість 3 використовується z-показник 2,5. У цьому випадку окреме значення 164 вважатиметься викидом, оскільки воно має z-показник більше 2,5.

Використовуючи метод z-показника, визначте на свій розсуд, яке значення z-показника ви вважаєте викидом.

Як працювати з викидами

Якщо у ваших даних присутній викид, у вас є кілька варіантів:

1. Переконайтеся, що викид не є результатом помилки введення даних.

Іноді особа просто вводить неправильне значення даних під час збереження даних. Якщо присутній викид, спочатку переконайтеся, що значення введено правильно і що це не помилка.

2. Видаліть викид.

Якщо значення дійсно викидається, ви можете видалити його, якщо воно матиме значний вплив на загальний аналіз. Просто не забудьте зазначити у своєму остаточному звіті чи аналізі, що ви усунули викид.

3. Призначте нове значення викиду .

Якщо викид є результатом помилки введення даних, ви можете вирішити призначити йому нове значення, наприклад середнє або медіана набору даних.

Додати коментар

Ваша e-mail адреса не оприлюднюватиметься. Обов’язкові поля позначені *