Як обчислити стандартну помилку середнього в python


Стандартна помилка середнього — це спосіб вимірювання розподілу значень у наборі даних. Він розраховується таким чином:

Стандартна помилка середнього = s / √n

золото:

  • s : вибіркове стандартне відхилення
  • n : розмір вибірки

Цей підручник пояснює два методи, які можна використовувати для обчислення стандартної помилки середнього значення набору даних у Python. Зауважте, що обидва методи дають абсолютно однакові результати.

Спосіб 1: Використовуйте SciPy

Перший спосіб обчислення стандартної похибки середнього — це використання функції sem() із бібліотеки SciPy Stats.

Наступний код показує, як використовувати цю функцію:

 from scipy. stats import week

#define dataset 
data = [3, 4, 4, 5, 7, 8, 12, 14, 14, 15, 17, 19, 22, 24, 24, 24, 25, 28, 28, 29]

#calculate standard error of the mean 
sem(data)

2.001447

Стандартна помилка середнього виявляється 2,001447 .

Спосіб 2: Використовуйте NumPy

Інший спосіб обчислити стандартну помилку середнього значення набору даних – це використовувати функцію std() NumPy.

Зауважте, що нам потрібно вказати ddof=1 в аргументі цієї функції, щоб обчислити стандартне відхилення вибірки на відміну від стандартного відхилення сукупності.

Наступний код показує, як це зробити:

 import numpy as np

#define dataset
data = np.array([3, 4, 4, 5, 7, 8, 12, 14, 14, 15, 17, 19, 22, 24, 24, 24, 25, 28, 28, 29])

#calculate standard error of the mean 
n.p. std (data, ddof= 1 ) / np. sqrt ( np.size (data))

2.001447

Знову стандартна помилка середнього виявляється 2,001447 .

Як інтерпретувати стандартну помилку середнього

Стандартна помилка середнього — це просто міра розкиду значень навколо середнього. Інтерпретуючи стандартну помилку середнього, слід пам’ятати про дві речі:

1. Чим більша стандартна помилка середнього значення, тим більше розкидані значення навколо середнього в наборі даних.

Щоб проілюструвати це, розглянемо, якщо ми змінимо останнє значення попереднього набору даних на набагато більше число:

 from scipy. stats import week

#define dataset 
data = [3, 4, 4, 5, 7, 8, 12, 14, 14, 15, 17, 19, 22, 24, 24, 24, 25, 28, 28, 150 ]

#calculate standard error of the mean 
sem(data)

6.978265

Зверніть увагу, як стандартна помилка зростає з 2,001447 до 6,978265 . Це вказує на те, що значення в цьому наборі даних більше розподілені навколо середнього порівняно з попереднім набором даних.

2. Зі збільшенням розміру вибірки стандартна помилка середнього має тенденцію до зменшення.

Щоб проілюструвати це, розглянемо стандартну помилку середнього для наступних двох наборів даних:

 from scipy . stats import week 

#define first dataset and find SEM
data1 = [1, 2, 3, 4, 5]
sem(data1)

0.7071068

#define second dataset and find SEM
data2 = [1, 2, 3, 4, 5, 1, 2, 3, 4, 5]
sem(data2)

0.4714045

Другий набір даних — це просто перший набір даних, повторений двічі. Отже, обидва набори даних мають однакове середнє значення, але другий набір даних має більший розмір вибірки і, отже, має меншу стандартну помилку.

Додаткові ресурси

Як обчислити стандартну помилку середнього в R
Як обчислити стандартну помилку середнього в Excel
Як обчислити стандартну помилку середнього в Google Таблицях

Додати коментар

Ваша e-mail адреса не оприлюднюватиметься. Обов’язкові поля позначені *