Переваги та недоліки використання стандартного відхилення
Стандартне відхилення набору даних – це спосіб вимірювання типового відхилення окремих значень від середнього значення.
Формула для обчислення стандартного відхилення вибірки, позначена s , має вигляд:
s = √ Σ(x i – x̄) 2 / (n – 1)
золото:
- Σ : символ, що означає «сума»
- x i : i- те значення в наборі даних
- x̄ : вибірка середніх
- n : розмір вибірки
Є дві основні переваги використання стандартного відхилення для опису розподілу значень у наборі даних:
Перевага №1: стандартне відхилення використовує всі спостереження в наборі даних у своєму обчисленні. У статистиці ми зазвичай кажемо, що мати можливість використовувати всі спостереження в наборі даних для виконання обчислень – це добре, оскільки ми використовуємо всю можливу «інформацію», доступну в наборі даних.
Перевага №2: стандартне відхилення легко інтерпретувати . Стандартне відхилення – це одне значення, яке дає нам гарне уявлення про те, наскільки «типове» спостереження в наборі даних знаходиться від середнього значення.
Однак використання стандартного відхилення має серйозний недолік:
Недолік №1: на стандартне відхилення можуть впливати викиди . Коли в наборі даних присутні екстремальні викиди, це може збільшити значення стандартного відхилення і таким чином дати оманливе уявлення про розподіл значень у наборі даних.
Наступні приклади надають більше інформації про переваги та недоліки використання стандартного відхилення.
Перевага №1: Стандартне відхилення використовує всі спостереження
Припустімо, що ми маємо такий набір даних, який показує розподіл іспитових балів для студентів у класі:
Рейтинги: 68, 70, 71, 75, 78, 82, 83, 83, 85, 90, 91, 91, 92
Ми можемо скористатися калькулятором або статистичним програмним забезпеченням, щоб знайти, що вибіркове стандартне відхилення цього набору даних становить 8,46.
Перевага використання стандартного відхилення в цьому прикладі полягає в тому, що ми використовуємо всі можливі спостереження в наборі даних, щоб знайти типовий «розподіл» значень.
На відміну від цього, ми могли б використовувати інший показник, такий як інтерквартильний діапазон, щоб виміряти розподіл значень у цьому наборі даних.
Ми можемо скористатися калькулятором, щоб знайти, що інтерквартильний діапазон дорівнює 17,5 . Це являє собою розрив між середніми 50% значень у наборі даних.
Тепер припустімо, що ми змінимо найнижче значення в наборі даних на набагато нижче:
Рейтинги: 22, 70, 71, 75, 78, 82, 83, 83, 85, 90, 91, 91, 92
Ми можемо скористатися калькулятором, щоб знайти стандартне відхилення вибірки 18,37 .
Однак міжквартильний діапазон все ще становить 17,5, оскільки середні 50% значень не зачіпаються.
Це показує, що стандартне відхилення вибірки враховує всі спостереження в наборі даних у своєму обчисленні, на відміну від інших заходів дисперсії.
Перевага №2: стандартне відхилення легко інтерпретувати
Згадайте наведений нижче набір даних, який показує розподіл оцінок іспитів для студентів у класі:
Рейтинги: 68, 70, 71, 75, 78, 82, 83, 83, 85, 90, 91, 91, 92
Ми використали калькулятор, щоб знайти стандартне відхилення вибірки цього набору даних 8,46 .
Це легко інтерпретувати, оскільки це просто означає, що відхилення «типового» балу іспиту становить приблизно 8,46 від середнього балу іспиту.
З іншого боку, інші міри дисперсії не так просто інтерпретувати.
Наприклад, коефіцієнт варіації є ще одним показником дисперсії, який представляє відношення стандартного відхилення до середнього значення вибірки.
Коефіцієнт варіації: s/x̄
У цьому прикладі середній бал іспиту становить 81,46, тому коефіцієнт варіації розраховується таким чином: 8,46 / 81,46 = 0,104 .
Це відношення стандартного відхилення вибірки до середнього значення вибірки, яке може бути корисним для порівняння розподілу значень між кількома наборами даних, але його не дуже просто інтерпретувати як саму метрику.
Недолік №1: на стандартне відхилення можуть впливати викиди
Припустімо, що ми маємо такий набір даних, що містить інформацію про зарплату 10 співробітників (у тисячах доларів) у компанії:
Заробітна плата: 44, 48, 57, 68, 70, 71, 73, 79, 84, 94
Вибіркове стандартне відхилення зарплат становить приблизно 15,57 .
Тепер припустімо, що ми маємо той самий набір даних, але найвища зарплата набагато вища:
Заробітна плата: 44, 48, 57, 68, 70, 71, 73, 79, 84, 895
Вибіркове стандартне відхилення зарплат у цьому наборі даних становить приблизно 262,47 .
Якщо включити лише один крайній викид, стандартне відхилення зазнає значного впливу і тепер дає оманливе уявлення про «типовий» розподіл зарплати.
Примітка . Якщо в наборі даних присутні викиди, інтерквартильний діапазон може забезпечити кращу міру дисперсії, оскільки на нього не впливають викиди.
Додаткові ресурси
У наступних посібниках надається додаткова інформація про використання стандартного відхилення в статистиці:
Міжквартильний діапазон і стандартне відхилення: різниця
Коефіцієнт варіації проти стандартного відхилення: різниця
Населення проти Зразок стандартного відхилення: коли використовувати кожне