Comment calculer l’échantillon & Variance de population en Python
La variance est un moyen de mesurer la répartition des valeurs dans un ensemble de données.
La formule pour calculer la variance de la population est la suivante :
σ 2 = Σ (x je – μ) 2 / N
où:
- Σ : Un symbole qui signifie « somme »
- μ : Moyenne de la population
- x i : Le i ème élément de la population
- N : Taille de la population
La formule pour calculer la variance de l’échantillon est la suivante :
s 2 = Σ (x je – x ) 2 / (n-1)
où:
- x : moyenne de l’échantillon
- x i : Le i ème élément de l’échantillon
- n : Taille de l’échantillon
Nous pouvons utiliser les fonctions de variance et de pvariance de la bibliothèque de statistiques en Python pour calculer rapidement la variance de l’échantillon et la variance de la population (respectivement) pour un tableau donné.
from statistics import variance, pvariance #calculate sample variance variance(x) #calculate population variance pvariance(x)
Les exemples suivants montrent comment utiliser chaque fonction dans la pratique.
Exemple 1 : Calcul de la variance d’un échantillon en Python
Le code suivant montre comment calculer la variance d’échantillon d’un tableau en Python :
from statistics import variance #define data data = [4, 8, 12, 15, 9, 6, 14, 18, 12, 9, 16, 17, 17, 20, 14] #calculate sample variance variance(data) 22.067
La variance de l’échantillon s’avère être de 22,067 .
Exemple 2 : calcul de la variance de la population en Python
Le code suivant montre comment calculer la variance de population d’un tableau en Python :
from statistics import pvariance #define data data = [4, 8, 12, 15, 9, 6, 14, 18, 12, 9, 16, 17, 17, 20, 14] #calculate sample variance pvariance(data) 20.596
La variance de la population s’avère être de 20,596 .
Notes sur le calcul de la variance de l’échantillon et de la population
Gardez à l’esprit les éléments suivants lors du calcul de la variance de l’échantillon et de la population :
- Vous devez calculer la variance de la population lorsque l’ensemble de données avec lequel vous travaillez représente une population entière, c’est-à-dire chaque valeur qui vous intéresse.
- Vous devez calculer la variance de l’échantillon lorsque l’ensemble de données avec lequel vous travaillez représente un échantillon prélevé sur une population d’intérêt plus large.
- La variance de l’échantillon d’un tableau de données donné sera toujours plus grande que la variance de la population pour le même tableau de données car il y a plus d’incertitude lors du calcul de la variance de l’échantillon, donc notre estimation de la variance sera plus grande.
Ressources additionnelles
Les didacticiels suivants expliquent comment calculer d’autres mesures de propagation en Python :
Comment calculer l’intervalle interquartile en Python
Comment calculer le coefficient de variation en Python
Comment calculer l’écart type d’une liste en Python