Міжквартильний діапазон і стандартне відхилення: у чому різниця?


Міжквартильний діапазон і стандартне відхилення є двома способами вимірювання розподілу значень у наборі даних.

Цей підручник містить коротке пояснення кожного показника, а також подібності та відмінності між ними.

Міжквартильний діапазон

Міжквартильний діапазон (IQR) набору даних — це різниця між першим квартилем (25-й процентиль) і третім квартилем (75-й процентиль). Він вимірює розподіл середніх 50% значень.

IQR = Q3 – Q1

Наприклад, припустимо, що ми маємо такий набір даних:

Набір даних: 1, 4, 8, 11, 13, 17, 19, 19, 20, 23, 24, 24, 25, 28, 29, 31, 32

Згідно з калькулятором інтерквартильного діапазону, інтерквартильний діапазон (IQR) для цього набору даних обчислюється таким чином:

  • Т1: 12
  • Т3: 26,5
  • IQR = Q3 – Q1 = 14,5

Це говорить нам про те, що середні 50% значень у наборі даних мають відхилення 14,5 .

Стандартне відхилення

Стандартне відхилення набору даних – це спосіб вимірювання типового відхилення окремих значень від середнього значення. Він розраховується таким чином:

s = √(Σ(x ix ) 2 / (n-1))

Наприклад, припустимо, що ми маємо такий набір даних:

Набір даних: 1, 4, 8, 11, 13, 17, 19, 19, 20, 23, 24, 24, 25, 28, 29, 31, 32

Ми можемо скористатися калькулятором, щоб знайти стандартне відхилення цього набору даних 9,25 . Це дає нам уявлення про те, наскільки типове значення далеке від середнього.

Подібності та відмінності

Міжквартильний діапазон і стандартне відхилення мають таку схожість:

  • Обидва показники вимірюють розподіл значень у наборі даних.

Однак міжквартильний діапазон і стандартне відхилення мають такі ключові відмінності:

  • На міжквартильний діапазон (IQR) не впливають екстремальні викиди. Наприклад, надзвичайно мале або надзвичайно велике значення в наборі даних не вплине на обчислення IQR, оскільки IQR використовує лише значення 25-го процентиля та 75-го процентиля набору даних.
  • На стандартне відхилення впливають екстремальні викиди. Наприклад, надзвичайно велике значення в наборі даних призведе до набагато більшого стандартного відхилення, оскільки стандартне відхилення використовує кожне значення в наборі даних у своїй формулі.

Коли використовувати кожен

Ви повинні використовувати інтерквартильний діапазон для вимірювання розподілу значень у наборі даних, коли є екстремальні викиди.

І навпаки, ви повинні використовувати стандартне відхилення для вимірювання розподілу значень, коли немає екстремальних викидів.

Щоб проілюструвати чому, розглянемо наступний набір даних:

Набір даних: 1, 4, 8, 11, 13, 17, 19, 19, 20, 23, 24, 24, 25, 28, 29, 31, 32

Раніше в цій статті ми розрахували такі показники для цього набору даних:

  • IQR: 14,5
  • Стандартне відхилення: 9,25

Однак подумайте, чи має набір даних екстремальний викид:

Набір даних: 1, 4, 8, 11, 13, 17, 19, 19, 20, 23, 24, 24, 25, 28, 29, 31, 32, 378

Ми могли б скористатися калькулятором, щоб знайти такі показники для цього набору даних:

  • IQR: 15
  • Стандартне відхилення: 85,02

Зверніть увагу, що інтерквартильний діапазон майже не змінюється, коли присутній викид, тоді як стандартне відхилення збільшується з 9,25 до 85,02.

Додаткові ресурси

Міри центральної тенденції: визначення та приклади
Міри дисперсії: визначення та приклади
Як знайти викиди за допомогою інтерквартильного діапазону

Додати коментар

Ваша e-mail адреса не оприлюднюватиметься. Обов’язкові поля позначені *