Як обчислити стандартну помилку середнього в python
Стандартна помилка середнього — це спосіб вимірювання розподілу значень у наборі даних. Він розраховується таким чином:
Стандартна помилка середнього = s / √n
золото:
- s : вибіркове стандартне відхилення
- n : розмір вибірки
Цей підручник пояснює два методи, які можна використовувати для обчислення стандартної помилки середнього значення набору даних у Python. Зауважте, що обидва методи дають абсолютно однакові результати.
Спосіб 1: Використовуйте SciPy
Перший спосіб обчислення стандартної похибки середнього — це використання функції sem() із бібліотеки SciPy Stats.
Наступний код показує, як використовувати цю функцію:
from scipy. stats import week #define dataset data = [3, 4, 4, 5, 7, 8, 12, 14, 14, 15, 17, 19, 22, 24, 24, 24, 25, 28, 28, 29] #calculate standard error of the mean sem(data) 2.001447
Стандартна помилка середнього виявляється 2,001447 .
Спосіб 2: Використовуйте NumPy
Інший спосіб обчислити стандартну помилку середнього значення набору даних – це використовувати функцію std() NumPy.
Зауважте, що нам потрібно вказати ddof=1 в аргументі цієї функції, щоб обчислити стандартне відхилення вибірки на відміну від стандартного відхилення сукупності.
Наступний код показує, як це зробити:
import numpy as np #define dataset data = np.array([3, 4, 4, 5, 7, 8, 12, 14, 14, 15, 17, 19, 22, 24, 24, 24, 25, 28, 28, 29]) #calculate standard error of the mean n.p. std (data, ddof= 1 ) / np. sqrt ( np.size (data)) 2.001447
Знову стандартна помилка середнього виявляється 2,001447 .
Як інтерпретувати стандартну помилку середнього
Стандартна помилка середнього — це просто міра розкиду значень навколо середнього. Інтерпретуючи стандартну помилку середнього, слід пам’ятати про дві речі:
1. Чим більша стандартна помилка середнього значення, тим більше розкидані значення навколо середнього в наборі даних.
Щоб проілюструвати це, розглянемо, якщо ми змінимо останнє значення попереднього набору даних на набагато більше число:
from scipy. stats import week #define dataset data = [3, 4, 4, 5, 7, 8, 12, 14, 14, 15, 17, 19, 22, 24, 24, 24, 25, 28, 28, 150 ] #calculate standard error of the mean sem(data) 6.978265
Зверніть увагу, як стандартна помилка зростає з 2,001447 до 6,978265 . Це вказує на те, що значення в цьому наборі даних більше розподілені навколо середнього порівняно з попереднім набором даних.
2. Зі збільшенням розміру вибірки стандартна помилка середнього має тенденцію до зменшення.
Щоб проілюструвати це, розглянемо стандартну помилку середнього для наступних двох наборів даних:
from scipy . stats import week #define first dataset and find SEM data1 = [1, 2, 3, 4, 5] sem(data1) 0.7071068 #define second dataset and find SEM data2 = [1, 2, 3, 4, 5, 1, 2, 3, 4, 5] sem(data2) 0.4714045
Другий набір даних — це просто перший набір даних, повторений двічі. Отже, обидва набори даних мають однакове середнє значення, але другий набір даних має більший розмір вибірки і, отже, має меншу стандартну помилку.
Додаткові ресурси
Як обчислити стандартну помилку середнього в R
Як обчислити стандартну помилку середнього в Excel
Як обчислити стандартну помилку середнього в Google Таблицях