Comment calculer l’erreur standard de la moyenne en Python



L’ erreur type de la moyenne est un moyen de mesurer la répartition des valeurs dans un ensemble de données. Il est calculé comme suit :

Erreur type de la moyenne = s / √n

où:

  • s : écart type de l’échantillon
  • n : taille de l’échantillon

Ce didacticiel explique deux méthodes que vous pouvez utiliser pour calculer l’erreur type de la moyenne d’un ensemble de données en Python. Notez que les deux méthodes produisent exactement les mêmes résultats.

Méthode 1 : utiliser SciPy

La première façon de calculer l’erreur type de la moyenne consiste à utiliser la fonction sem() de la bibliothèque SciPy Stats.

Le code suivant montre comment utiliser cette fonction :

from scipy.stats import sem

#define dataset 
data = [3, 4, 4, 5, 7, 8, 12, 14, 14, 15, 17, 19, 22, 24, 24, 24, 25, 28, 28, 29]

#calculate standard error of the mean 
sem(data)

2.001447

L’erreur type de la moyenne s’avère être de 2,001447 .

Méthode 2 : utiliser NumPy

Une autre façon de calculer l’erreur standard de la moyenne d’un ensemble de données consiste à utiliser la fonction std() de NumPy.

Notez que nous devons spécifier ddof=1 dans l’argument de cette fonction pour calculer l’écart type de l’échantillon par opposition à l’écart type de la population.

Le code suivant montre comment procéder :

import numpy as np

#define dataset
data = np.array([3, 4, 4, 5, 7, 8, 12, 14, 14, 15, 17, 19, 22, 24, 24, 24, 25, 28, 28, 29])

#calculate standard error of the mean 
np.std(data, ddof=1) / np.sqrt(np.size(data))

2.001447

Encore une fois, l’erreur type de la moyenne s’avère être de 2,001447 .

Comment interpréter l’erreur type de la moyenne

L’erreur type de la moyenne est simplement une mesure de l’étalement des valeurs autour de la moyenne. Il y a deux choses à garder à l’esprit lors de l’interprétation de l’erreur type de la moyenne :

1. Plus l’erreur type de la moyenne est grande, plus les valeurs sont dispersées autour de la moyenne dans un ensemble de données.

Pour illustrer cela, considérons si nous modifions la dernière valeur de l’ensemble de données précédent par un nombre beaucoup plus grand :

from scipy.stats import sem

#define dataset 
data = [3, 4, 4, 5, 7, 8, 12, 14, 14, 15, 17, 19, 22, 24, 24, 24, 25, 28, 28, 150]

#calculate standard error of the mean 
sem(data)

6.978265

Remarquez comment l’erreur standard passe de 2,001447 à 6,978265 . Cela indique que les valeurs de cet ensemble de données sont plus réparties autour de la moyenne par rapport à l’ensemble de données précédent.

2. À mesure que la taille de l’échantillon augmente, l’erreur type de la moyenne tend à diminuer.

Pour illustrer cela, considérons l’erreur standard de la moyenne pour les deux ensembles de données suivants :

from scipy.stats import sem 

#define first dataset and find SEM
data1 = [1, 2, 3, 4, 5]
sem(data1)

0.7071068

#define second dataset and find SEM
data2 = [1, 2, 3, 4, 5, 1, 2, 3, 4, 5]
sem(data2)

0.4714045

Le deuxième ensemble de données est simplement le premier ensemble de données répété deux fois. Ainsi, les deux ensembles de données ont la même moyenne mais le deuxième ensemble de données a une taille d’échantillon plus grande et a donc une erreur type plus petite.

Ressources additionnelles

Comment calculer l’erreur standard de la moyenne dans R
Comment calculer l’erreur type de la moyenne dans Excel
Comment calculer l’erreur standard de la moyenne dans Google Sheets

Ajouter un commentaire

Votre adresse e-mail ne sera pas publiée. Les champs obligatoires sont indiqués avec *