Як обчислити дисперсію вибірки та сукупності в python
Дисперсія – це спосіб вимірювання розподілу значень у наборі даних.
Формула для обчислення дисперсії сукупності :
σ 2 = Σ (x i – μ) 2 / N
золото:
- Σ : символ, що означає «сума»
- μ : середня чисельність населення
- x i : i- й елемент сукупності
- N : чисельність населення
Формула для розрахунку дисперсії вибірки :
s 2 = Σ (x i – x ) 2 / (n-1)
золото:
- x : вибірка середніх
- x i : i- й елемент вибірки
- n : розмір вибірки
Ми можемо використовувати функції дисперсії та pvariance з бібліотеки статистики в Python, щоб швидко обчислити дисперсію вибірки та дисперсію сукупності (відповідно) для даної таблиці.
from statistics import variance, pvariance #calculate sample variance variance(s) #calculate population variance pvariance(x)
Наступні приклади показують, як використовувати кожну функцію на практиці.
Приклад 1: обчислення дисперсії вибірки в Python
Наступний код показує, як обчислити дисперсію вибірки таблиці в Python:
from statistics import variance #define data data = [4, 8, 12, 15, 9, 6, 14, 18, 12, 9, 16, 17, 17, 20, 14] #calculate sample variance variance(data) 22,067
Вибіркова дисперсія виявляється 22,067 .
Приклад 2: Обчислення дисперсії сукупності в Python
Наступний код показує, як обчислити дисперсію генеральної сукупності таблиці в Python:
from statistics import pvariance #define data data = [4, 8, 12, 15, 9, 6, 14, 18, 12, 9, 16, 17, 17, 20, 14] #calculate sample variance pvariance(data) 20,596
Дисперсія сукупності виявляється 20 596 .
Примітки щодо розрахунку дисперсії вибірки та сукупності
Під час обчислення дисперсії вибірки та сукупності пам’ятайте про наступне:
- Варто обчислити дисперсію сукупності , коли набір даних, з яким ви працюєте, представляє всю сукупність, тобто кожне значення, яке вас цікавить.
- Варто розрахувати дисперсію вибірки , коли набір даних, з яким ви працюєте, представляє вибірку, взяту з більшої сукупності, що вас цікавить.
- Дисперсія вибірки даної таблиці даних завжди буде більшою, ніж дисперсія генеральної сукупності для тієї самої таблиці даних, оскільки існує більше невизначеності під час обчислення дисперсії вибірки, тому наша оцінка дисперсії буде більшою.
Додаткові ресурси
У наступних посібниках пояснюється, як обчислити інші показники поширення в Python:
Як обчислити інтерквартильний діапазон у Python
Як обчислити коефіцієнт варіації в Python
Як обчислити стандартне відхилення списку в Python