Comment rechercher et visualiser des quartiles dans R
Les quartiles sont des valeurs qui divisent un ensemble de données en quatre parties égales.
- Le premier quartile représente le 25e percentile d’un ensemble de données.
- Le deuxième quartile représente le 50e percentile d’un ensemble de données. Cette valeur est équivalente à la valeur médiane de l’ensemble de données.
- Le troisième quartile représente le 75e percentile d’un ensemble de données.
Nous pouvons facilement calculer les quartiles d’un ensemble de données donné dans R en utilisant la fonction quantile() .
Ce didacticiel fournit des exemples d’utilisation pratique de cette fonction.
Calcul des quartiles dans R
Le code suivant montre comment calculer les quartiles d’un ensemble de données donné dans R :
#define dataset data = c(4, 7, 12, 13, 14, 15, 15, 16, 19, 23, 24, 25, 27, 28, 33) #calculate quartiles of dataset quantile(data) 0% 25% 50% 75% 100% 4.0 13.5 16.0 24.5 33.0
Voici comment interpréter le résultat :
- La première valeur affiche la valeur minimale dans l’ensemble de données : 4,0
- La deuxième valeur affiche le premier quartile de l’ensemble de données : 13,5
- La troisième valeur affiche le deuxième quartile de l’ensemble de données : 16,0
- La quatrième valeur affiche le troisième quartile de l’ensemble de données : 24,5
- La cinquième valeur affiche la valeur maximale dans l’ensemble de données : 33,0
Connexes : Comment calculer facilement les centiles dans R
Visualisation des quartiles dans R
Nous pouvons utiliser la fonction boxplot() pour créer un boxplot afin de visualiser les quartiles de cet ensemble de données dans R :
#create boxplot
boxplot(data)
Voici comment interpréter le boxplot :
- La « moustache » inférieure affiche la valeur minimale de 4 .
- La ligne inférieure de la boîte affiche la valeur du premier quartile de 13,5 .
- La barre noire au milieu de la case affiche la valeur du deuxième quartile de 16,0 .
- La ligne supérieure de la boîte affiche la valeur du troisième quartile de 24,5 .
- La « moustache » supérieure affiche la valeur maximale de 33,0 .
Ce tracé unique nous aide à visualiser rapidement la distribution des valeurs dans l’ensemble de données.
Connexe : Comment tracer plusieurs boîtes à moustaches dans un seul graphique dans R