Come calcolare l'errore standard della media in python
L’ errore standard della media è un modo per misurare la distribuzione dei valori in un set di dati. Viene calcolato come segue:
Errore standard della media = s / √n
Oro:
- s : deviazione standard campionaria
- n : dimensione del campione
Questo tutorial spiega due metodi che puoi utilizzare per calcolare l’errore standard della media di un set di dati in Python. Tieni presente che entrambi i metodi producono esattamente gli stessi risultati.
Metodo 1: utilizzare SciPy
Il primo modo per calcolare l’errore standard della media è utilizzare la funzione sem() della libreria SciPy Stats.
Il codice seguente mostra come utilizzare questa funzione:
from scipy. stats import week #define dataset data = [3, 4, 4, 5, 7, 8, 12, 14, 14, 15, 17, 19, 22, 24, 24, 24, 25, 28, 28, 29] #calculate standard error of the mean sem(data) 2.001447
L’errore standard della media risulta essere 2.001447 .
Metodo 2: utilizzare NumPy
Un altro modo per calcolare l’errore standard della media di un set di dati è utilizzare la funzione std() di NumPy.
Tieni presente che dobbiamo specificare ddof=1 nell’argomento di questa funzione per calcolare la deviazione standard del campione rispetto alla deviazione standard della popolazione.
Il codice seguente mostra come eseguire questa operazione:
import numpy as np #define dataset data = np.array([3, 4, 4, 5, 7, 8, 12, 14, 14, 15, 17, 19, 22, 24, 24, 24, 25, 28, 28, 29]) #calculate standard error of the mean n.p. std (data, ddof= 1 ) / np. sqrt ( np.size (data)) 2.001447
Ancora una volta, l’errore standard della media risulta essere 2.001447 .
Come interpretare l’errore standard della media
L’errore standard della media è semplicemente una misura della diffusione dei valori attorno alla media. Ci sono due cose da tenere a mente quando si interpreta l’errore standard della media:
1. Quanto maggiore è l’errore standard della media, tanto più sparsi sono i valori attorno alla media in un set di dati.
Per illustrare ciò, considera se modifichiamo l’ultimo valore del set di dati precedente con un numero molto maggiore:
from scipy. stats import week #define dataset data = [3, 4, 4, 5, 7, 8, 12, 14, 14, 15, 17, 19, 22, 24, 24, 24, 25, 28, 28, 150 ] #calculate standard error of the mean sem(data) 6.978265
Nota come l’errore standard aumenta da 2.001447 a 6.978265 . Ciò indica che i valori in questo set di dati sono più distribuiti attorno alla media rispetto al set di dati precedente.
2. All’aumentare della dimensione del campione, l’errore standard della media tende a diminuire.
Per illustrare ciò, si consideri l’errore standard della media per i seguenti due insiemi di dati:
from scipy . stats import week #define first dataset and find SEM data1 = [1, 2, 3, 4, 5] sem(data1) 0.7071068 #define second dataset and find SEM data2 = [1, 2, 3, 4, 5, 1, 2, 3, 4, 5] sem(data2) 0.4714045
Il secondo set di dati è semplicemente il primo set di dati ripetuto due volte. Quindi entrambi i set di dati hanno la stessa media, ma il secondo set di dati ha una dimensione campionaria maggiore e quindi ha un errore standard più piccolo.
Risorse addizionali
Come calcolare l’errore standard della media in R
Come calcolare l’errore standard della media in Excel
Come calcolare l’errore standard della media in Fogli Google