Comment calculer l’erreur standard de la moyenne en Python
L’ erreur type de la moyenne est un moyen de mesurer la répartition des valeurs dans un ensemble de données. Il est calculé comme suit :
Erreur type de la moyenne = s / √n
où:
- s : écart type de l’échantillon
- n : taille de l’échantillon
Ce didacticiel explique deux méthodes que vous pouvez utiliser pour calculer l’erreur type de la moyenne d’un ensemble de données en Python. Notez que les deux méthodes produisent exactement les mêmes résultats.
Méthode 1 : utiliser SciPy
La première façon de calculer l’erreur type de la moyenne consiste à utiliser la fonction sem() de la bibliothèque SciPy Stats.
Le code suivant montre comment utiliser cette fonction :
from scipy.stats import sem #define dataset data = [3, 4, 4, 5, 7, 8, 12, 14, 14, 15, 17, 19, 22, 24, 24, 24, 25, 28, 28, 29] #calculate standard error of the mean sem(data) 2.001447
L’erreur type de la moyenne s’avère être de 2,001447 .
Méthode 2 : utiliser NumPy
Une autre façon de calculer l’erreur standard de la moyenne d’un ensemble de données consiste à utiliser la fonction std() de NumPy.
Notez que nous devons spécifier ddof=1 dans l’argument de cette fonction pour calculer l’écart type de l’échantillon par opposition à l’écart type de la population.
Le code suivant montre comment procéder :
import numpy as np #define dataset data = np.array([3, 4, 4, 5, 7, 8, 12, 14, 14, 15, 17, 19, 22, 24, 24, 24, 25, 28, 28, 29]) #calculate standard error of the mean np.std(data, ddof=1) / np.sqrt(np.size(data)) 2.001447
Encore une fois, l’erreur type de la moyenne s’avère être de 2,001447 .
Comment interpréter l’erreur type de la moyenne
L’erreur type de la moyenne est simplement une mesure de l’étalement des valeurs autour de la moyenne. Il y a deux choses à garder à l’esprit lors de l’interprétation de l’erreur type de la moyenne :
1. Plus l’erreur type de la moyenne est grande, plus les valeurs sont dispersées autour de la moyenne dans un ensemble de données.
Pour illustrer cela, considérons si nous modifions la dernière valeur de l’ensemble de données précédent par un nombre beaucoup plus grand :
from scipy.stats import sem #define dataset data = [3, 4, 4, 5, 7, 8, 12, 14, 14, 15, 17, 19, 22, 24, 24, 24, 25, 28, 28, 150] #calculate standard error of the mean sem(data) 6.978265
Remarquez comment l’erreur standard passe de 2,001447 à 6,978265 . Cela indique que les valeurs de cet ensemble de données sont plus réparties autour de la moyenne par rapport à l’ensemble de données précédent.
2. À mesure que la taille de l’échantillon augmente, l’erreur type de la moyenne tend à diminuer.
Pour illustrer cela, considérons l’erreur standard de la moyenne pour les deux ensembles de données suivants :
from scipy.stats import sem #define first dataset and find SEM data1 = [1, 2, 3, 4, 5] sem(data1) 0.7071068 #define second dataset and find SEM data2 = [1, 2, 3, 4, 5, 1, 2, 3, 4, 5] sem(data2) 0.4714045
Le deuxième ensemble de données est simplement le premier ensemble de données répété deux fois. Ainsi, les deux ensembles de données ont la même moyenne mais le deuxième ensemble de données a une taille d’échantillon plus grande et a donc une erreur type plus petite.
Ressources additionnelles
Comment calculer l’erreur standard de la moyenne dans R
Comment calculer l’erreur type de la moyenne dans Excel
Comment calculer l’erreur standard de la moyenne dans Google Sheets