Comment calculer un résumé de cinq nombres dans R (avec des exemples)



Un résumé à cinq chiffres est un moyen de résumer un ensemble de données en utilisant les cinq valeurs suivantes :

  • Le minimum
  • Le premier quartile
  • La médiane
  • Le troisième quartile
  • Le maximum

Le résumé en cinq chiffres est utile car il fournit un résumé concis de la distribution des données de la manière suivante :

  • Il nous indique où se situe la valeur médiane , en utilisant la médiane.
  • Il nous indique la répartition des données, en utilisant les premier et troisième quartiles.
  • Il nous indique la plage des données, en utilisant le minimum et le maximum.

Le moyen le plus simple de calculer un résumé à cinq nombres d’un ensemble de données dans R est d’utiliser la fonction fivenum() à partir de la base R :

fivenum(data)

L’exemple suivant montre comment utiliser cette syntaxe dans la pratique.

Exemple 1 : Résumé à cinq nombres d’un vecteur

Le code suivant montre comment calculer le résumé à cinq nombres d’un vecteur numérique dans R :

#define numeric vector
data <- c(4, 6, 6, 7, 8, 9, 12, 13, 14, 15, 15, 18, 22)

#calculate five number summary of data
fivenum(data)

[1]  4  7 12 15 22

À partir du résultat, nous pouvons voir :

  • Le minimum : 4
  • Le premier quartile : 7
  • La médiane : 12
  • Le troisième quartile : 15
  • Le maximum : 22

Nous pouvons visualiser rapidement le résumé à cinq chiffres en créant une boîte à moustaches :

boxplot(data)

[1]  4  7 12 15 22

Voici comment interpréter le boxplot :

  • La ligne en bas du graphique représente la valeur minimale ( 4 ).
  • La ligne en bas de la case représente le premier quartile ( 7 ).
  • La ligne au milieu de la case représente la médiane ( 12 ).
  • La ligne en haut de la case représente le troisième quartile ( 15 ).
  • La ligne en haut du graphique représente la valeur maximale ( 22 ).

Exemple 2 : Résumé à cinq chiffres d’une colonne dans un bloc de données

Le code suivant montre comment calculer le résumé à cinq chiffres d’une colonne spécifique dans un bloc de données :

#create data frame
df <- data.frame(team=c('A', 'B', 'C', 'D', 'E', 'F', 'G', 'H'),
                 points=c(99, 90, 86, 88, 95, 87, 85, 89),
                 assists=c(33, 28, 31, 39, 34, 30, 29, 25),
                 rebounds=c(30, 28, 24, 24, 28, 30, 31, 35))

#calculate five number summary of points column
fivenum(df$points)

[1] 85.0 86.5 88.5 92.5 99.0

Exemple 3 : Résumé à cinq chiffres de plusieurs colonnes

Le code suivant montre comment utiliser la fonction sapply() pour calculer simultanément le résumé à cinq chiffres de plusieurs colonnes d’un bloc de données :

#create data frame
df <- data.frame(team=c('A', 'B', 'C', 'D', 'E', 'F', 'G', 'H'),
                 points=c(99, 90, 86, 88, 95, 87, 85, 89),
                 assists=c(33, 28, 31, 39, 34, 30, 29, 25),
                 rebounds=c(30, 28, 24, 24, 28, 30, 31, 35))

#calculate five number summary of points, assists, and rebounds column
sapply(df[c('points', 'assists', 'rebounds')], fivenum)

     points assists rebounds
[1,]   85.0    25.0     24.0
[2,]   86.5    28.5     26.0
[3,]   88.5    30.5     29.0
[4,]   92.5    33.5     30.5
[5,]   99.0    39.0     35.0

Connexe : Un guide pour apply(), lapply(), sapply() et tapply() dans R

Ressources additionnelles

Comment créer des tableaux récapitulatifs dans R
Comment trouver la plage dans R
Comment supprimer les valeurs aberrantes dans R

Ajouter un commentaire

Votre adresse e-mail ne sera pas publiée. Les champs obligatoires sont indiqués avec *