Міжквартильний діапазон і стандартне відхилення: у чому різниця?
Міжквартильний діапазон і стандартне відхилення є двома способами вимірювання розподілу значень у наборі даних.
Цей підручник містить коротке пояснення кожного показника, а також подібності та відмінності між ними.
Міжквартильний діапазон
Міжквартильний діапазон (IQR) набору даних — це різниця між першим квартилем (25-й процентиль) і третім квартилем (75-й процентиль). Він вимірює розподіл середніх 50% значень.
IQR = Q3 – Q1
Наприклад, припустимо, що ми маємо такий набір даних:
Набір даних: 1, 4, 8, 11, 13, 17, 19, 19, 20, 23, 24, 24, 25, 28, 29, 31, 32
Згідно з калькулятором інтерквартильного діапазону, інтерквартильний діапазон (IQR) для цього набору даних обчислюється таким чином:
- Т1: 12
- Т3: 26,5
- IQR = Q3 – Q1 = 14,5
Це говорить нам про те, що середні 50% значень у наборі даних мають відхилення 14,5 .
Стандартне відхилення
Стандартне відхилення набору даних – це спосіб вимірювання типового відхилення окремих значень від середнього значення. Він розраховується таким чином:
s = √(Σ(x i – x ) 2 / (n-1))
Наприклад, припустимо, що ми маємо такий набір даних:
Набір даних: 1, 4, 8, 11, 13, 17, 19, 19, 20, 23, 24, 24, 25, 28, 29, 31, 32
Ми можемо скористатися калькулятором, щоб знайти стандартне відхилення цього набору даних 9,25 . Це дає нам уявлення про те, наскільки типове значення далеке від середнього.
Подібності та відмінності
Міжквартильний діапазон і стандартне відхилення мають таку схожість:
- Обидва показники вимірюють розподіл значень у наборі даних.
Однак міжквартильний діапазон і стандартне відхилення мають такі ключові відмінності:
- На міжквартильний діапазон (IQR) не впливають екстремальні викиди. Наприклад, надзвичайно мале або надзвичайно велике значення в наборі даних не вплине на обчислення IQR, оскільки IQR використовує лише значення 25-го процентиля та 75-го процентиля набору даних.
- На стандартне відхилення впливають екстремальні викиди. Наприклад, надзвичайно велике значення в наборі даних призведе до набагато більшого стандартного відхилення, оскільки стандартне відхилення використовує кожне значення в наборі даних у своїй формулі.
Коли використовувати кожен
Ви повинні використовувати інтерквартильний діапазон для вимірювання розподілу значень у наборі даних, коли є екстремальні викиди.
І навпаки, ви повинні використовувати стандартне відхилення для вимірювання розподілу значень, коли немає екстремальних викидів.
Щоб проілюструвати чому, розглянемо наступний набір даних:
Набір даних: 1, 4, 8, 11, 13, 17, 19, 19, 20, 23, 24, 24, 25, 28, 29, 31, 32
Раніше в цій статті ми розрахували такі показники для цього набору даних:
- IQR: 14,5
- Стандартне відхилення: 9,25
Однак подумайте, чи має набір даних екстремальний викид:
Набір даних: 1, 4, 8, 11, 13, 17, 19, 19, 20, 23, 24, 24, 25, 28, 29, 31, 32, 378
Ми могли б скористатися калькулятором, щоб знайти такі показники для цього набору даних:
- IQR: 15
- Стандартне відхилення: 85,02
Зверніть увагу, що інтерквартильний діапазон майже не змінюється, коли присутній викид, тоді як стандартне відхилення збільшується з 9,25 до 85,02.
Додаткові ресурси
Міри центральної тенденції: визначення та приклади
Міри дисперсії: визначення та приклади
Як знайти викиди за допомогою інтерквартильного діапазону