Comment appliquer la règle empirique dans R



La règle empirique , parfois appelée règle 68-95-99.7, stipule que pour un ensemble de données donné avec une distribution normale :

  • 68 % des valeurs des données se situent dans un écart type de la moyenne.
  • 95 % des valeurs des données se situent à moins de deux écarts types de la moyenne.
  • 99,7 % des valeurs des données se situent dans trois écarts types de la moyenne.

Dans ce didacticiel, nous expliquons comment appliquer la règle empirique dans R à un ensemble de données donné.

Application de la règle empirique dans R

La fonction pnorm() dans R renvoie la valeur de la fonction de densité cumulée de la distribution normale.

Cette fonction utilise la syntaxe de base suivante :

pnorm(q, moyenne, sd)

où:

  • q : valeur de variable aléatoire normalement distribuée
  • moyenne : moyenne de distribution
  • sd : écart type de distribution

Nous pouvons utiliser la syntaxe suivante pour trouver l’aire sous la courbe de distribution normale qui se situe entre divers écarts types :

#find area under normal curve within 1 standard deviation of mean
pnorm(1) - pnorm(-1)

[1] 0.6826895

#find area under normal curve within 2 standard deviations of mean 
pnorm(2) - pnorm(-2)

[1] 0.9544997

#find area under normal curve within 3 standard deviations of mean 
pnorm(3) - pnorm(-3)

[1] 0.9973002

À partir du résultat, nous pouvons confirmer :

  • 68 % des valeurs des données se situent dans un écart type de la moyenne.
  • 95 % des valeurs des données se situent à moins de deux écarts types de la moyenne.
  • 99,7 % des valeurs des données se situent dans trois écarts types de la moyenne.

Les exemples suivants montrent comment utiliser la règle empirique avec différents ensembles de données dans la pratique.

Exemple 1 : application de la règle empirique à un ensemble de données dans R

Supposons que nous ayons un ensemble de données normalement distribué avec une moyenne de 7 et un écart type de 2,2 .

Nous pouvons utiliser le code suivant pour déterminer quelles valeurs contiennent 68 %, 95 % et 99,7 % des données :

#define mean and standard deviation values
mean=7
sd=2.2

#find which values contain 68% of data
mean-2.2; mean+2.2

[1] 4.8
[1] 9.2

#find which values contain 95% of data
mean-2*2.2; mean+2*2.2

[1] 2.6
[1] 11.4

#find which values contain 99.7% of data
mean-3*2.2; mean+3*2.2

[1] 0.4
[1] 13.6

De cette sortie, nous pouvons voir :

  • 68 % des données se situent entre 4,8 et 9,2
  • 95 % des données se situent entre 2,6 et 11,4
  • 99,7 % des données se situent entre 0,4 et 13,6

Exemple 2 : Déterminer quel pourcentage de données se situe entre certaines valeurs

Imaginez que nous ayons un ensemble de données normalement distribué avec une moyenne de 100 et un écart type de 5.

Supposons que nous voulions savoir quel pourcentage des données se situe entre les valeurs 99 et 105 dans cette distribution.

Nous pouvons utiliser la fonction pnorm( ) pour trouver la réponse :

#find area under normal curve between 99 and 105
pnorm(105, mean=100, sd=5) - pnorm(99, mean=100, sd=5)

[1] 0.4206045

On voit que 42,06% des données se situent entre les valeurs 99 et 105 pour cette distribution.

Ressources additionnelles

Comment appliquer la règle empirique dans Excel
Problèmes de pratique des règles empiriques
Calculateur de règles empiriques

Ajouter un commentaire

Votre adresse e-mail ne sera pas publiée. Les champs obligatoires sont indiqués avec *