Що таке модифікована оцінка z? (визначення & #038; приклад)
У статистиці z-показник говорить нам, скільки стандартних відхилень має значення від середнього . Ми використовуємо наступну формулу для розрахунку z-показника:
Z оцінка = (x i – μ) / σ
золото:
- x i : одне значення даних
- μ: середнє значення набору даних
- σ: стандартне відхилення набору даних
Z-оцінки часто використовуються для виявлення викидів у наборі даних. Наприклад, спостереження з z-показником менше -3 або більше 3 часто вважаються викидами.
Однак на z-показники можуть впливати надзвичайно великі або малі значення даних. Ось чому більш надійним способом виявлення викидів є використання модифікованого z-показника , розрахованого таким чином:
Модифікований z-показник = 0,6745 (x i – x̃) / MAD
золото:
- x i : одне значення даних
- x̃: медіана набору даних
- MAD: середнє абсолютне відхилення набору даних
Модифікований z-показник є надійнішим, оскільки він використовує медіану для обчислення z-показників, на відміну від середнього, на яке, як відомо, впливають викиди .
Іглевіч і Хоаглін рекомендують позначати значення з модифікованими z-показниками менше ніж -3,5 або більше ніж 3,5 як потенційні викиди.
У наступному покроковому прикладі показано, як обчислити модифіковані z-показники для певного набору даних.
Крок 1: Створіть дані
Припустимо, ми маємо наступний набір даних із 16 значеннями:
Крок 2: Знайдіть медіану
Далі знайдемо медіану. Це середина набору даних, яка виявляється рівною 16 .
Крок 3: Знайдіть абсолютну різницю між кожним значенням і медіаною
Далі ми знайдемо абсолютну різницю між кожним окремим значенням даних і медіаною. Наприклад, абсолютна різниця між першим значенням даних і медіаною обчислюється таким чином:
Абсолютна різниця = |6 – 16| = 10
Ми можемо використовувати ту саму формулу, щоб обчислити абсолютну різницю між кожним окремим значенням даних і медіаною:
Крок 4: Знайдіть абсолютне середнє відхилення
Далі ми знайдемо абсолютне середнє відхилення. Це медіана другого стовпця, яка дорівнює 8 .
Крок 5. Знайдіть модифікований Z-показник для кожного значення даних
Нарешті, ми можемо обчислити модифікований z-показник для кожного значення даних за такою формулою:
Модифікований z-показник = 0,6745 (x i – x̃) / MAD
Наприклад, модифікований z-показник для першого значення даних обчислюється таким чином:
Модифікований z-показник = 0,6745*(6-16) / 8 = -0,843
Ми можемо повторити цю формулу для кожного значення в наборі даних:
Ми бачимо, що жодне значення в наборі даних не має модифікованого z-показника, меншого за -3,5 або більшого за 3,5, тому ми не позначаємо жодне значення в цьому наборі даних як потенційне викид.
Як працювати з викидами
Якщо у вашому наборі даних присутній викид, у вас є кілька варіантів:
- Переконайтеся, що викид не є результатом помилки введення даних. Іноді особа просто вводить неправильне значення даних під час збереження даних. Якщо присутній викид, спочатку переконайтеся, що значення введено правильно і що це не помилка.
- Призначте нове значення викиду . Якщо викид виявляється результатом помилки введення даних, ви можете вирішити призначити йому нове значення, наприклад середнє або медіана набору даних.
- Видаліть викид. Якщо значення дійсно викидається, ви можете видалити його, якщо воно матиме значний вплив на загальний аналіз. Просто не забудьте зазначити у своєму остаточному звіті чи аналізі, що ви усунули викид.