Comment calculer un résumé de cinq nombres dans R (avec des exemples)
Un résumé à cinq chiffres est un moyen de résumer un ensemble de données en utilisant les cinq valeurs suivantes :
- Le minimum
- Le premier quartile
- La médiane
- Le troisième quartile
- Le maximum
Le résumé en cinq chiffres est utile car il fournit un résumé concis de la distribution des données de la manière suivante :
- Il nous indique où se situe la valeur médiane , en utilisant la médiane.
- Il nous indique la répartition des données, en utilisant les premier et troisième quartiles.
- Il nous indique la plage des données, en utilisant le minimum et le maximum.
Le moyen le plus simple de calculer un résumé à cinq nombres d’un ensemble de données dans R est d’utiliser la fonction fivenum() à partir de la base R :
fivenum(data)
L’exemple suivant montre comment utiliser cette syntaxe dans la pratique.
Exemple 1 : Résumé à cinq nombres d’un vecteur
Le code suivant montre comment calculer le résumé à cinq nombres d’un vecteur numérique dans R :
#define numeric vector data <- c(4, 6, 6, 7, 8, 9, 12, 13, 14, 15, 15, 18, 22) #calculate five number summary of data fivenum(data) [1] 4 7 12 15 22
À partir du résultat, nous pouvons voir :
- Le minimum : 4
- Le premier quartile : 7
- La médiane : 12
- Le troisième quartile : 15
- Le maximum : 22
Nous pouvons visualiser rapidement le résumé à cinq chiffres en créant une boîte à moustaches :
boxplot(data) [1] 4 7 12 15 22
Voici comment interpréter le boxplot :
- La ligne en bas du graphique représente la valeur minimale ( 4 ).
- La ligne en bas de la case représente le premier quartile ( 7 ).
- La ligne au milieu de la case représente la médiane ( 12 ).
- La ligne en haut de la case représente le troisième quartile ( 15 ).
- La ligne en haut du graphique représente la valeur maximale ( 22 ).
Exemple 2 : Résumé à cinq chiffres d’une colonne dans un bloc de données
Le code suivant montre comment calculer le résumé à cinq chiffres d’une colonne spécifique dans un bloc de données :
#create data frame df <- data.frame(team=c('A', 'B', 'C', 'D', 'E', 'F', 'G', 'H'), points=c(99, 90, 86, 88, 95, 87, 85, 89), assists=c(33, 28, 31, 39, 34, 30, 29, 25), rebounds=c(30, 28, 24, 24, 28, 30, 31, 35)) #calculate five number summary of points column fivenum(df$points) [1] 85.0 86.5 88.5 92.5 99.0
Exemple 3 : Résumé à cinq chiffres de plusieurs colonnes
Le code suivant montre comment utiliser la fonction sapply() pour calculer simultanément le résumé à cinq chiffres de plusieurs colonnes d’un bloc de données :
#create data frame df <- data.frame(team=c('A', 'B', 'C', 'D', 'E', 'F', 'G', 'H'), points=c(99, 90, 86, 88, 95, 87, 85, 89), assists=c(33, 28, 31, 39, 34, 30, 29, 25), rebounds=c(30, 28, 24, 24, 28, 30, 31, 35)) #calculate five number summary of points, assists, and rebounds column sapply(df[c('points', 'assists', 'rebounds')], fivenum) points assists rebounds [1,] 85.0 25.0 24.0 [2,] 86.5 28.5 26.0 [3,] 88.5 30.5 29.0 [4,] 92.5 33.5 30.5 [5,] 99.0 39.0 35.0
Connexe : Un guide pour apply(), lapply(), sapply() et tapply() dans R
Ressources additionnelles
Comment créer des tableaux récapitulatifs dans R
Comment trouver la plage dans R
Comment supprimer les valeurs aberrantes dans R