Просте пояснення того, як інтерпретувати дисперсію
У статистиці ми часто хочемо зрозуміти, наскільки «розпорошені» значення в наборі даних. Щоб виміряти це, ми часто використовуємо такі міри дисперсії:
- Діапазон: різниця між найбільшим і найменшим значеннями в наборі даних.
- Міжквартильний діапазон: різниця між першим квартилем і третім квартилем набору даних (квартилі — це просто значення, які ділять набір даних на чотири рівні частини).
- Стандартне відхилення: спосіб вимірювання типової відстані між значеннями та середнім.
- Дисперсія: стандартне відхилення в квадраті.
З цих чотирьох показників дисперсію , як правило, найважче зрозуміти інтуїтивно. Ця стаття має на меті надати просте пояснення дисперсії.
Розуміння стандартного відхилення
Перш ніж ми зможемо зрозуміти дисперсію, ми повинні спочатку зрозуміти стандартне відхилення , яке зазвичай позначається σ .
Формула для обчислення стандартного відхилення:
σ = √(Σ (x i – μ) 2 / N)
де μ — середнє значення сукупності, x i — i -й елемент генеральної сукупності, N — розмір генеральної сукупності, а Σ — просто химерний символ, що означає «суму».
На практиці вам рідко доведеться обчислювати стандартне відхилення вручну; замість цього ви можете використовувати статистичне програмне забезпечення або калькулятор.
На самому базовому рівні стандартне відхилення повідомляє нам про розподіл значень даних у наборі даних. Щоб проілюструвати це, розглянемо наступні три набори даних разом із відповідними стандартними відхиленнями:
[5, 5, 5] стандартне відхилення = 0 (розкиду немає)
[3, 5, 7] стандартне відхилення = 1,63 (деякі відхилення)
[1, 5, 99] стандартне відхилення = 45,28 (багато розкиду)
Термін «стандартне відхилення» можна зрозуміти, подивившись на два слова, що його складають:
- «відхилення» – це стосується відстані від середнього.
- «стандарт» — це відноситься до «стандарту» або «типової» відстані між значенням і середнім.
Коли ви зрозумієте стандартне відхилення, набагато легше зрозуміти дисперсію.
Розуміння розриву
Дисперсія, яка зазвичай позначається σ2 , є просто стандартним відхиленням у квадраті. Формула для знаходження дисперсії набору даних така:
σ 2 = Σ (x i – μ) 2 / N
де μ — середнє значення сукупності, x i — i -й елемент генеральної сукупності, N — розмір генеральної сукупності, а Σ — просто химерний символ, що означає «суму».
Отже, якщо стандартне відхилення набору даних дорівнює 8, то варіація буде 8 2 = 64.
Або, якщо стандартне відхилення набору даних дорівнює 10, тоді варіація буде 10 2 = 100.
Або, якщо стандартне відхилення набору даних дорівнює 3,7, тоді варіація буде 3,7 2 = 13,69.
Чим більше розкидані значення в наборі даних, тим вище дисперсія. Щоб проілюструвати це, розглянемо наступні три набори даних разом із їхніми відповідними відхиленнями:
[5, 5, 5] дисперсія = 0 (без розповсюдження)
[3, 5, 7] дисперсія = 2,67 (деякі відхилення)
[1, 5, 99] дисперсія = 2050,67 (багатий спред)
Коли б ви використовували дисперсію замість стандартного відхилення?
Прочитавши наведені вище пояснення стандартного відхилення та дисперсії, ви можете задатися питанням, коли б ви коли-небудь використовували дисперсію замість стандартного відхилення для опису набору даних.
Зрештою, стандартне відхилення говорить нам про середню відстань між значенням і середнім, тоді як дисперсія говорить нам про квадрат цього значення. Здавалося б, стандартне відхилення набагато легше зрозуміти та інтерпретувати.
Насправді ви майже завжди використовуєте стандартне відхилення для опису розподілу значень у наборі даних.
Однак дисперсія може бути корисною, коли використовується такий метод, як ANOVA або регресія , і намагається пояснити загальну дисперсію моделі через певні фактори.
Наприклад, ви можете зрозуміти, яку різницю в тестових результатах можна пояснити IQ, а яку дисперсію можна пояснити годинами вивчення.
Якщо 36% варіації пов’язано з IQ, а 64% – з годинами навчання, це легко зрозуміти. Але якщо ми використовуємо стандартні відхилення 6 і 8, це набагато менш інтуїтивно зрозуміло і не має особливого сенсу в контексті проблеми.
Ще один випадок, коли краще використовувати дисперсію, а не стандартне відхилення, це коли ви виконуєте теоретичну статистичну роботу.
У цьому випадку набагато легше використовувати дисперсію під час розрахунку, оскільки вам не потрібно використовувати знак квадратного кореня.
Додаткові ресурси
У наступних посібниках надається додаткова інформація про відхилення:
Дисперсія вибірки та дисперсія сукупності: у чому різниця?
Як обчислити дисперсію вибірки та сукупності в Excel