Що таке модифікована оцінка z? (визначення & #038; приклад)


У статистиці z-показник говорить нам, скільки стандартних відхилень має значення від середнього . Ми використовуємо наступну формулу для розрахунку z-показника:

Z оцінка = (x i – μ) / σ

золото:

  • x i : одне значення даних
  • μ: середнє значення набору даних
  • σ: стандартне відхилення набору даних

Z-оцінки часто використовуються для виявлення викидів у наборі даних. Наприклад, спостереження з z-показником менше -3 або більше 3 часто вважаються викидами.

Однак на z-показники можуть впливати надзвичайно великі або малі значення даних. Ось чому більш надійним способом виявлення викидів є використання модифікованого z-показника , розрахованого таким чином:

Модифікований z-показник = 0,6745 (x i – x̃) / MAD

золото:

  • x i : одне значення даних
  • x̃: медіана набору даних
  • MAD: середнє абсолютне відхилення набору даних

Модифікований z-показник є надійнішим, оскільки він використовує медіану для обчислення z-показників, на відміну від середнього, на яке, як відомо, впливають викиди .

Іглевіч і Хоаглін рекомендують позначати значення з модифікованими z-показниками менше ніж -3,5 або більше ніж 3,5 як потенційні викиди.

У наступному покроковому прикладі показано, як обчислити модифіковані z-показники для певного набору даних.

Крок 1: Створіть дані

Припустимо, ми маємо наступний набір даних із 16 значеннями:

Крок 2: Знайдіть медіану

Далі знайдемо медіану. Це середина набору даних, яка виявляється рівною 16 .

Крок 3: Знайдіть абсолютну різницю між кожним значенням і медіаною

Далі ми знайдемо абсолютну різницю між кожним окремим значенням даних і медіаною. Наприклад, абсолютна різниця між першим значенням даних і медіаною обчислюється таким чином:

Абсолютна різниця = |6 – 16| = 10

Ми можемо використовувати ту саму формулу, щоб обчислити абсолютну різницю між кожним окремим значенням даних і медіаною:

Крок 4: Знайдіть абсолютне середнє відхилення

Далі ми знайдемо абсолютне середнє відхилення. Це медіана другого стовпця, яка дорівнює 8 .

Крок 5. Знайдіть модифікований Z-показник для кожного значення даних

Нарешті, ми можемо обчислити модифікований z-показник для кожного значення даних за такою формулою:

Модифікований z-показник = 0,6745 (x i – x̃) / MAD

Наприклад, модифікований z-показник для першого значення даних обчислюється таким чином:

Модифікований z-показник = 0,6745*(6-16) / 8 = -0,843

Ми можемо повторити цю формулу для кожного значення в наборі даних:

Ми бачимо, що жодне значення в наборі даних не має модифікованого z-показника, меншого за -3,5 або більшого за 3,5, тому ми не позначаємо жодне значення в цьому наборі даних як потенційне викид.

Як працювати з викидами

Якщо у вашому наборі даних присутній викид, у вас є кілька варіантів:

  • Переконайтеся, що викид не є результатом помилки введення даних. Іноді особа просто вводить неправильне значення даних під час збереження даних. Якщо присутній викид, спочатку переконайтеся, що значення введено правильно і що це не помилка.
  • Призначте нове значення викиду . Якщо викид виявляється результатом помилки введення даних, ви можете вирішити призначити йому нове значення, наприклад середнє або медіана набору даних.
  • Видаліть викид. Якщо значення дійсно викидається, ви можете видалити його, якщо воно матиме значний вплив на загальний аналіз. Просто не забудьте зазначити у своєму остаточному звіті чи аналізі, що ви усунули викид.

Додати коментар

Ваша e-mail адреса не оприлюднюватиметься. Обов’язкові поля позначені *