Як обчислити дисперсію вибірки та сукупності в python


Дисперсія – це спосіб вимірювання розподілу значень у наборі даних.

Формула для обчислення дисперсії сукупності :

σ 2 = Σ (x i – μ) 2 / N

золото:

  • Σ : символ, що означає «сума»
  • μ : середня чисельність населення
  • x i : i- й елемент сукупності
  • N : чисельність населення

Формула для розрахунку дисперсії вибірки :

s 2 = Σ (x ix ) 2 / (n-1)

золото:

  • x : вибірка середніх
  • x i : i- й елемент вибірки
  • n : розмір вибірки

Ми можемо використовувати функції дисперсії та pvariance з бібліотеки статистики в Python, щоб швидко обчислити дисперсію вибірки та дисперсію сукупності (відповідно) для даної таблиці.

 from statistics import variance, pvariance

#calculate sample variance
variance(s)

#calculate population variance
pvariance(x)

Наступні приклади показують, як використовувати кожну функцію на практиці.

Приклад 1: обчислення дисперсії вибірки в Python

Наступний код показує, як обчислити дисперсію вибірки таблиці в Python:

 from statistics import variance 

#define data
data = [4, 8, 12, 15, 9, 6, 14, 18, 12, 9, 16, 17, 17, 20, 14]

#calculate sample variance
variance(data)

22,067

Вибіркова дисперсія виявляється 22,067 .

Приклад 2: Обчислення дисперсії сукупності в Python

Наступний код показує, як обчислити дисперсію генеральної сукупності таблиці в Python:

 from statistics import pvariance 

#define data
data = [4, 8, 12, 15, 9, 6, 14, 18, 12, 9, 16, 17, 17, 20, 14]

#calculate sample variance
pvariance(data)

20,596

Дисперсія сукупності виявляється 20 596 .

Примітки щодо розрахунку дисперсії вибірки та сукупності

Під час обчислення дисперсії вибірки та сукупності пам’ятайте про наступне:

  • Варто обчислити дисперсію сукупності , коли набір даних, з яким ви працюєте, представляє всю сукупність, тобто кожне значення, яке вас цікавить.
  • Варто розрахувати дисперсію вибірки , коли набір даних, з яким ви працюєте, представляє вибірку, взяту з більшої сукупності, що вас цікавить.
  • Дисперсія вибірки даної таблиці даних завжди буде більшою, ніж дисперсія генеральної сукупності для тієї самої таблиці даних, оскільки існує більше невизначеності під час обчислення дисперсії вибірки, тому наша оцінка дисперсії буде більшою.

Додаткові ресурси

У наступних посібниках пояснюється, як обчислити інші показники поширення в Python:

Як обчислити інтерквартильний діапазон у Python
Як обчислити коефіцієнт варіації в Python
Як обчислити стандартне відхилення списку в Python

Додати коментар

Ваша e-mail адреса не оприлюднюватиметься. Обов’язкові поля позначені *