Просте пояснення того, як інтерпретувати дисперсію


У статистиці ми часто хочемо зрозуміти, наскільки «розпорошені» значення в наборі даних. Щоб виміряти це, ми часто використовуємо такі міри дисперсії:

  • Діапазон: різниця між найбільшим і найменшим значеннями в наборі даних.
  • Міжквартильний діапазон: різниця між першим квартилем і третім квартилем набору даних (квартилі — це просто значення, які ділять набір даних на чотири рівні частини).
  • Стандартне відхилення: спосіб вимірювання типової відстані між значеннями та середнім.
  • Дисперсія: стандартне відхилення в квадраті.

З цих чотирьох показників дисперсію , як правило, найважче зрозуміти інтуїтивно. Ця стаття має на меті надати просте пояснення дисперсії.

Розуміння стандартного відхилення

Перш ніж ми зможемо зрозуміти дисперсію, ми повинні спочатку зрозуміти стандартне відхилення , яке зазвичай позначається σ .

Формула для обчислення стандартного відхилення:

σ = √(Σ (x i – μ) 2 / N)

де μ — середнє значення сукупності, x ii -й елемент генеральної сукупності, N — розмір генеральної сукупності, а Σ — просто химерний символ, що означає «суму».

На практиці вам рідко доведеться обчислювати стандартне відхилення вручну; замість цього ви можете використовувати статистичне програмне забезпечення або калькулятор.

На самому базовому рівні стандартне відхилення повідомляє нам про розподіл значень даних у наборі даних. Щоб проілюструвати це, розглянемо наступні три набори даних разом із відповідними стандартними відхиленнями:

[5, 5, 5] стандартне відхилення = 0 (розкиду немає)

[3, 5, 7] стандартне відхилення = 1,63 (деякі відхилення)

[1, 5, 99] стандартне відхилення = 45,28 (багато розкиду)

Термін «стандартне відхилення» можна зрозуміти, подивившись на два слова, що його складають:

  • «відхилення» – це стосується відстані від середнього.
  • «стандарт» — це відноситься до «стандарту» або «типової» відстані між значенням і середнім.

Коли ви зрозумієте стандартне відхилення, набагато легше зрозуміти дисперсію.

Розуміння розриву

Дисперсія, яка зазвичай позначається σ2 , є просто стандартним відхиленням у квадраті. Формула для знаходження дисперсії набору даних така:

σ 2 = Σ (x i – μ) 2 / N

де μ — середнє значення сукупності, x ii -й елемент генеральної сукупності, N — розмір генеральної сукупності, а Σ — просто химерний символ, що означає «суму».

Отже, якщо стандартне відхилення набору даних дорівнює 8, то варіація буде 8 2 = 64.

Або, якщо стандартне відхилення набору даних дорівнює 10, тоді варіація буде 10 2 = 100.

Або, якщо стандартне відхилення набору даних дорівнює 3,7, тоді варіація буде 3,7 2 = 13,69.

Чим більше розкидані значення в наборі даних, тим вище дисперсія. Щоб проілюструвати це, розглянемо наступні три набори даних разом із їхніми відповідними відхиленнями:

[5, 5, 5] дисперсія = 0 (без розповсюдження)

[3, 5, 7] дисперсія = 2,67 (деякі відхилення)

[1, 5, 99] дисперсія = 2050,67 (багатий спред)

Коли б ви використовували дисперсію замість стандартного відхилення?

Прочитавши наведені вище пояснення стандартного відхилення та дисперсії, ви можете задатися питанням, коли б ви коли-небудь використовували дисперсію замість стандартного відхилення для опису набору даних.

Зрештою, стандартне відхилення говорить нам про середню відстань між значенням і середнім, тоді як дисперсія говорить нам про квадрат цього значення. Здавалося б, стандартне відхилення набагато легше зрозуміти та інтерпретувати.

Насправді ви майже завжди використовуєте стандартне відхилення для опису розподілу значень у наборі даних.

Однак дисперсія може бути корисною, коли використовується такий метод, як ANOVA або регресія , і намагається пояснити загальну дисперсію моделі через певні фактори.

Наприклад, ви можете зрозуміти, яку різницю в тестових результатах можна пояснити IQ, а яку дисперсію можна пояснити годинами вивчення.

Якщо 36% варіації пов’язано з IQ, а 64% – з годинами навчання, це легко зрозуміти. Але якщо ми використовуємо стандартні відхилення 6 і 8, це набагато менш інтуїтивно зрозуміло і не має особливого сенсу в контексті проблеми.

Ще один випадок, коли краще використовувати дисперсію, а не стандартне відхилення, це коли ви виконуєте теоретичну статистичну роботу.

У цьому випадку набагато легше використовувати дисперсію під час розрахунку, оскільки вам не потрібно використовувати знак квадратного кореня.

Додаткові ресурси

У наступних посібниках надається додаткова інформація про відхилення:

Дисперсія вибірки та дисперсія сукупності: у чому різниця?
Як обчислити дисперсію вибірки та сукупності в Excel

Додати коментар

Ваша e-mail адреса не оприлюднюватиметься. Обов’язкові поля позначені *