Переваги та недоліки використання стандартного відхилення


Стандартне відхилення набору даних – це спосіб вимірювання типового відхилення окремих значень від середнього значення.

Формула для обчислення стандартного відхилення вибірки, позначена s , має вигляд:

s = √ Σ(x i – x̄) 2 / (n – 1)

золото:

  • Σ : символ, що означає «сума»
  • x i : i- те значення в наборі даних
  • : вибірка середніх
  • n : розмір вибірки

Є дві основні переваги використання стандартного відхилення для опису розподілу значень у наборі даних:

Перевага №1: стандартне відхилення використовує всі спостереження в наборі даних у своєму обчисленні. У статистиці ми зазвичай кажемо, що мати можливість використовувати всі спостереження в наборі даних для виконання обчислень – це добре, оскільки ми використовуємо всю можливу «інформацію», доступну в наборі даних.

Перевага №2: стандартне відхилення легко інтерпретувати . Стандартне відхилення – це одне значення, яке дає нам гарне уявлення про те, наскільки «типове» спостереження в наборі даних знаходиться від середнього значення.

Однак використання стандартного відхилення має серйозний недолік:

Недолік №1: на стандартне відхилення можуть впливати викиди . Коли в наборі даних присутні екстремальні викиди, це може збільшити значення стандартного відхилення і таким чином дати оманливе уявлення про розподіл значень у наборі даних.

Наступні приклади надають більше інформації про переваги та недоліки використання стандартного відхилення.

Перевага №1: Стандартне відхилення використовує всі спостереження

Припустімо, що ми маємо такий набір даних, який показує розподіл іспитових балів для студентів у класі:

Рейтинги: 68, 70, 71, 75, 78, 82, 83, 83, 85, 90, 91, 91, 92

Ми можемо скористатися калькулятором або статистичним програмним забезпеченням, щоб знайти, що вибіркове стандартне відхилення цього набору даних становить 8,46.

Перевага використання стандартного відхилення в цьому прикладі полягає в тому, що ми використовуємо всі можливі спостереження в наборі даних, щоб знайти типовий «розподіл» значень.

На відміну від цього, ми могли б використовувати інший показник, такий як інтерквартильний діапазон, щоб виміряти розподіл значень у цьому наборі даних.

Ми можемо скористатися калькулятором, щоб знайти, що інтерквартильний діапазон дорівнює 17,5 . Це являє собою розрив між середніми 50% значень у наборі даних.

Тепер припустімо, що ми змінимо найнижче значення в наборі даних на набагато нижче:

Рейтинги: 22, 70, 71, 75, 78, 82, 83, 83, 85, 90, 91, 91, 92

Ми можемо скористатися калькулятором, щоб знайти стандартне відхилення вибірки 18,37 .

Однак міжквартильний діапазон все ще становить 17,5, оскільки середні 50% значень не зачіпаються.

Це показує, що стандартне відхилення вибірки враховує всі спостереження в наборі даних у своєму обчисленні, на відміну від інших заходів дисперсії.

Перевага №2: стандартне відхилення легко інтерпретувати

Згадайте наведений нижче набір даних, який показує розподіл оцінок іспитів для студентів у класі:

Рейтинги: 68, 70, 71, 75, 78, 82, 83, 83, 85, 90, 91, 91, 92

Ми використали калькулятор, щоб знайти стандартне відхилення вибірки цього набору даних 8,46 .

Це легко інтерпретувати, оскільки це просто означає, що відхилення «типового» балу іспиту становить приблизно 8,46 від середнього балу іспиту.

З іншого боку, інші міри дисперсії не так просто інтерпретувати.

Наприклад, коефіцієнт варіації є ще одним показником дисперсії, який представляє відношення стандартного відхилення до середнього значення вибірки.

Коефіцієнт варіації: s/x̄

У цьому прикладі середній бал іспиту становить 81,46, тому коефіцієнт варіації розраховується таким чином: 8,46 / 81,46 = 0,104 .

Це відношення стандартного відхилення вибірки до середнього значення вибірки, яке може бути корисним для порівняння розподілу значень між кількома наборами даних, але його не дуже просто інтерпретувати як саму метрику.

Недолік №1: на стандартне відхилення можуть впливати викиди

Припустімо, що ми маємо такий набір даних, що містить інформацію про зарплату 10 співробітників (у тисячах доларів) у компанії:

Заробітна плата: 44, 48, 57, 68, 70, 71, 73, 79, 84, 94

Вибіркове стандартне відхилення зарплат становить приблизно 15,57 .

Тепер припустімо, що ми маємо той самий набір даних, але найвища зарплата набагато вища:

Заробітна плата: 44, 48, 57, 68, 70, 71, 73, 79, 84, 895

Вибіркове стандартне відхилення зарплат у цьому наборі даних становить приблизно 262,47 .

Якщо включити лише один крайній викид, стандартне відхилення зазнає значного впливу і тепер дає оманливе уявлення про «типовий» розподіл зарплати.

Примітка . Якщо в наборі даних присутні викиди, інтерквартильний діапазон може забезпечити кращу міру дисперсії, оскільки на нього не впливають викиди.

Додаткові ресурси

У наступних посібниках надається додаткова інформація про використання стандартного відхилення в статистиці:

Міжквартильний діапазон і стандартне відхилення: різниця
Коефіцієнт варіації проти стандартного відхилення: різниця
Населення проти Зразок стандартного відхилення: коли використовувати кожне

Додати коментар

Ваша e-mail адреса не оприлюднюватиметься. Обов’язкові поля позначені *