Comment calculer l’échantillon & Variance de la population en R



La variance est un moyen de mesurer dans quelle mesure les valeurs des données sont réparties autour de la moyenne.

La formule pour trouver la variance d’une population est la suivante :

σ 2 = Σ (x je – μ) 2 / N

où μ est la moyenne de la population, x i est le i ème élément de la population, N est la taille de la population et Σ est juste un symbole fantaisiste qui signifie « somme ».

La formule pour trouver la variance d’un échantillon est la suivante :

s 2 = Σ (x jex ) 2 / (n-1)

x est la moyenne de l’échantillon, x i est le i ème élément de l’échantillon et n est la taille de l’échantillon.

Exemple : calculer la variance de l’échantillon et de la population dans R

Supposons que nous ayons l’ensemble de données suivant dans R :

#define dataset
data <- c(2, 4, 4, 7, 8, 12, 14, 15, 19, 22)

Nous pouvons calculer la variance de l’échantillon en utilisant la fonction var() dans R :

#calculate sample variance
var(data)

[1] 46.01111

Et nous pouvons calculer la variance de la population en multipliant simplement la variance de l’échantillon par (n-1)/n comme suit :

#determine length of data
n <- length(data)

#calculate population variance
var(data) * (n-1)/n

[1] 41.41

Notez que la variance de la population sera toujours inférieure à la variance de l’échantillon.

En pratique, nous calculons généralement les variances d’échantillon pour des ensembles de données, car il est inhabituel de collecter des données pour une population entière.

Exemple : Calculer la variance d’un échantillon de plusieurs colonnes

Supposons que nous ayons le bloc de données suivant dans R :

#create data frame
data <- data.frame(a=c(1, 3, 4, 4, 6, 7, 8, 12),
                   b=c(2, 4, 4, 5, 5, 6, 7, 16),
                   c=c(6, 6, 7, 8, 8, 9, 9, 12))

#view data frame
data

   a  b  c
1  1  2  6
2  3  4  6
3  4  4  7
4  4  5  8
5  6  5  8
6  7  6  9
7  8  7  9
8 12 16 12

Nous pouvons utiliser la fonction sapply() pour calculer la variance d’échantillon de chaque colonne du bloc de données :

#find sample variance of each column
sapply(data, var)

        a         b         c 
11.696429 18.125000  3.839286 

Et nous pouvons utiliser le code suivant pour calculer l’écart type de l’échantillon de chaque colonne, qui est simplement la racine carrée de la variance de l’échantillon :

#find sample standard deviation of each column
sapply(data, sd)

       a        b        c 
3.420004 4.257347 1.959410 

Vous pouvez trouver plus de didacticiels R ici .

Ajouter un commentaire

Votre adresse e-mail ne sera pas publiée. Les champs obligatoires sont indiqués avec *