Comment appliquer la règle empirique dans R
La règle empirique , parfois appelée règle 68-95-99.7, stipule que pour un ensemble de données donné avec une distribution normale :
- 68 % des valeurs des données se situent dans un écart type de la moyenne.
- 95 % des valeurs des données se situent à moins de deux écarts types de la moyenne.
- 99,7 % des valeurs des données se situent dans trois écarts types de la moyenne.
Dans ce didacticiel, nous expliquons comment appliquer la règle empirique dans R à un ensemble de données donné.
Application de la règle empirique dans R
La fonction pnorm() dans R renvoie la valeur de la fonction de densité cumulée de la distribution normale.
Cette fonction utilise la syntaxe de base suivante :
pnorm(q, moyenne, sd)
où:
- q : valeur de variable aléatoire normalement distribuée
- moyenne : moyenne de distribution
- sd : écart type de distribution
Nous pouvons utiliser la syntaxe suivante pour trouver l’aire sous la courbe de distribution normale qui se situe entre divers écarts types :
#find area under normal curve within 1 standard deviation of mean pnorm(1) - pnorm(-1) [1] 0.6826895 #find area under normal curve within 2 standard deviations of mean pnorm(2) - pnorm(-2) [1] 0.9544997 #find area under normal curve within 3 standard deviations of mean pnorm(3) - pnorm(-3) [1] 0.9973002
À partir du résultat, nous pouvons confirmer :
- 68 % des valeurs des données se situent dans un écart type de la moyenne.
- 95 % des valeurs des données se situent à moins de deux écarts types de la moyenne.
- 99,7 % des valeurs des données se situent dans trois écarts types de la moyenne.
Les exemples suivants montrent comment utiliser la règle empirique avec différents ensembles de données dans la pratique.
Exemple 1 : application de la règle empirique à un ensemble de données dans R
Supposons que nous ayons un ensemble de données normalement distribué avec une moyenne de 7 et un écart type de 2,2 .
Nous pouvons utiliser le code suivant pour déterminer quelles valeurs contiennent 68 %, 95 % et 99,7 % des données :
#define mean and standard deviation values mean=7 sd=2.2 #find which values contain 68% of data mean-2.2; mean+2.2 [1] 4.8 [1] 9.2 #find which values contain 95% of data mean-2*2.2; mean+2*2.2 [1] 2.6 [1] 11.4 #find which values contain 99.7% of data mean-3*2.2; mean+3*2.2 [1] 0.4 [1] 13.6
De cette sortie, nous pouvons voir :
- 68 % des données se situent entre 4,8 et 9,2
- 95 % des données se situent entre 2,6 et 11,4
- 99,7 % des données se situent entre 0,4 et 13,6
Exemple 2 : Déterminer quel pourcentage de données se situe entre certaines valeurs
Imaginez que nous ayons un ensemble de données normalement distribué avec une moyenne de 100 et un écart type de 5.
Supposons que nous voulions savoir quel pourcentage des données se situe entre les valeurs 99 et 105 dans cette distribution.
Nous pouvons utiliser la fonction pnorm( ) pour trouver la réponse :
#find area under normal curve between 99 and 105
pnorm(105, mean=100, sd=5) - pnorm(99, mean=100, sd=5)
[1] 0.4206045
On voit que 42,06% des données se situent entre les valeurs 99 et 105 pour cette distribution.
Ressources additionnelles
Comment appliquer la règle empirique dans Excel
Problèmes de pratique des règles empiriques
Calculateur de règles empiriques