Jak obliczyć błąd standardowy średniej w pythonie


Błąd standardowy średniej to sposób pomiaru rozkładu wartości w zbiorze danych. Oblicza się go w następujący sposób:

Błąd standardowy średniej = s / √n

Złoto:

  • s : odchylenie standardowe próbki
  • n : wielkość próbki

W tym samouczku wyjaśniono dwie metody, których można użyć do obliczenia błędu standardowego średniej zbioru danych w Pythonie. Należy pamiętać, że obie metody dają dokładnie takie same wyniki.

Metoda 1: Użyj SciPy

Pierwszym sposobem obliczenia błędu standardowego średniej jest użycie funkcji sem() z biblioteki SciPy Stats.

Poniższy kod pokazuje, jak używać tej funkcji:

 from scipy. stats import week

#define dataset 
data = [3, 4, 4, 5, 7, 8, 12, 14, 14, 15, 17, 19, 22, 24, 24, 24, 25, 28, 28, 29]

#calculate standard error of the mean 
sem(data)

2.001447

Okazuje się, że błąd standardowy średniej wynosi 2,001447 .

Metoda 2: Użyj NumPy

Innym sposobem obliczenia błędu standardowego średniej zbioru danych jest użycie funkcji std() NumPy.

Należy zauważyć, że musimy określić ddof=1 w argumencie tej funkcji, aby obliczyć odchylenie standardowe próbki w przeciwieństwie do odchylenia standardowego populacji.

Poniższy kod pokazuje, jak to zrobić:

 import numpy as np

#define dataset
data = np.array([3, 4, 4, 5, 7, 8, 12, 14, 14, 15, 17, 19, 22, 24, 24, 24, 25, 28, 28, 29])

#calculate standard error of the mean 
n.p. std (data, ddof= 1 ) / np. sqrt ( np.size (data))

2.001447

Ponownie okazuje się, że błąd standardowy średniej wynosi 2,001447 .

Jak interpretować błąd standardowy średniej

Błąd standardowy średniej jest po prostu miarą rozrzutu wartości wokół średniej. Interpretując błąd standardowy średniej, należy pamiętać o dwóch rzeczach:

1. Im większy błąd standardowy średniej, tym bardziej rozproszone są wartości wokół średniej w zbiorze danych.

Aby to zilustrować, zastanówmy się, czy nie zmienimy ostatniej wartości poprzedniego zbioru danych o znacznie większą liczbę:

 from scipy. stats import week

#define dataset 
data = [3, 4, 4, 5, 7, 8, 12, 14, 14, 15, 17, 19, 22, 24, 24, 24, 25, 28, 28, 150 ]

#calculate standard error of the mean 
sem(data)

6.978265

Zwróć uwagę, jak błąd standardowy wzrasta z 2,001447 do 6,978265 . Oznacza to, że wartości w tym zbiorze danych są bardziej rozłożone wokół średniej w porównaniu z poprzednim zbiorem danych.

2. Wraz ze wzrostem liczebności próby błąd standardowy średniej ma tendencję do zmniejszania się.

Aby to zilustrować, rozważ błąd standardowy średniej dla następujących dwóch zestawów danych:

 from scipy . stats import week 

#define first dataset and find SEM
data1 = [1, 2, 3, 4, 5]
sem(data1)

0.7071068

#define second dataset and find SEM
data2 = [1, 2, 3, 4, 5, 1, 2, 3, 4, 5]
sem(data2)

0.4714045

Drugi zestaw danych to po prostu pierwszy zestaw danych powtórzony dwukrotnie. Zatem oba zbiory danych mają tę samą średnią, ale drugi zbiór danych ma większą próbkę i dlatego ma mniejszy błąd standardowy.

Dodatkowe zasoby

Jak obliczyć błąd standardowy średniej w R
Jak obliczyć błąd standardowy średniej w programie Excel
Jak obliczyć błąd standardowy średniej w Arkuszach Google

Dodaj komentarz

Twój adres e-mail nie zostanie opublikowany. Wymagane pola są oznaczone *