Le moyen le plus simple de créer des tableaux récapitulatifs dans R
Le moyen le plus simple de créer des tableaux récapitulatifs dans R est d’utiliser les fonctions décrire() et décrireBy() de la bibliothèque psych .
library(psych) #create summary table describe(df) #create summary table, grouped by a specific variable describeBy(df, group=df$var_name)
Les exemples suivants montrent comment utiliser ces fonctions dans la pratique.
Exemple 1 : Créer un tableau récapitulatif de base
Supposons que nous ayons le bloc de données suivant dans R :
#create data frame df <- data.frame(team=c('A', 'A', 'B', 'B', 'C', 'C', 'C'), points=c(15, 22, 29, 41, 30, 11, 19), rebounds=c(7, 8, 6, 6, 7, 9, 13), steals=c(1, 1, 2, 3, 5, 7, 5)) #view data frame df team points rebounds steals 1 A 15 7 1 2 A 22 8 1 3 B 29 6 2 4 B 41 6 3 5 C 30 7 5 6 C 11 9 7 7 C 19 13 5
Nous pouvons utiliser la fonction décrire() pour créer un tableau récapitulatif pour chaque variable du bloc de données :
library(psych) #create summary table describe(df) vars n mean sd median trimmed mad min max range skew kurtosis team* 1 7 2.14 0.90 2 2.14 1.48 1 3 2 -0.22 -1.90 points 2 7 23.86 10.24 22 23.86 10.38 11 41 30 0.33 -1.41 rebounds 3 7 8.00 2.45 7 8.00 1.48 6 13 7 1.05 -0.38 steals 4 7 3.43 2.30 3 3.43 2.97 1 7 6 0.25 -1.73 se team* 0.34 points 3.87 rebounds 0.93 steals 0.87
Voici comment interpréter chaque valeur dans le résultat :
- vars : numéro de colonne
- n : Nombre de cas valides
- moyenne : La valeur moyenne
- médiane : La valeur médiane
- trimmed : La moyenne tronquée (par défaut, 10 % des observations sont supprimées à chaque extrémité)
- mad : L’écart médian absolu (par rapport à la médiane)
- min : La valeur minimale
- max : La valeur maximale
- range : La plage de valeurs (max – min)
- skew : L’asymétrie
- kurtosis : L’aplatissement
- se : L’erreur standard
Il est important de noter que toute variable accompagnée d’un astérisque (*) est une variable catégorielle ou logique qui a été convertie en variable numérique avec des valeurs qui représentent l’ordre numérique des valeurs.
Dans notre exemple, la variable « équipe » a été convertie en variable numérique, nous ne devons donc pas interpréter littéralement les statistiques récapitulatives correspondantes.
Notez également que vous pouvez utiliser l’argument fast=TRUE pour calculer uniquement les statistiques récapitulatives les plus courantes :
#create smaller summary table describe(df, fast=TRUE) vars n mean sd min max range se team 1 7 NaN NA Inf -Inf -Inf NA points 2 7 23.86 10.24 11 41 30 3.87 rebounds 3 7 8.00 2.45 6 13 7 0.93 steals 4 7 3.43 2.30 1 7 6 0.87
Nous pouvons également choisir de calculer uniquement les statistiques récapitulatives pour certaines variables du bloc de données :
#create summary table for just 'points' and 'rebounds' columns describe(df[ , c('points', 'rebounds')], fast=TRUE) vars n mean sd min max range se points 1 7 23.86 10.24 11 41 30 3.87 rebounds 2 7 8.00 2.45 6 13 7 0.93
Exemple 2 : créer un tableau récapitulatif, regroupé par variable spécifique
Le code suivant montre comment utiliser la fonction décrireBy() pour créer un tableau récapitulatif pour le bloc de données, regroupé par la variable « équipe » :
#create summary table, grouped by 'team' variable describeBy(df, group=df$team, fast=TRUE) Descriptive statistics by group group: A vars n mean sd min max range se team 1 2 NaN NA Inf -Inf -Inf NA points 2 2 18.5 4.95 15 22 7 3.5 rebounds 3 2 7.5 0.71 7 8 1 0.5 steals 4 2 1.0 0.00 1 1 0 0.0 ------------------------------------------------------------ group: B vars n mean sd min max range se team 1 2 NaN NA Inf -Inf -Inf NA points 2 2 35.0 8.49 29 41 12 6.0 rebounds 3 2 6.0 0.00 6 6 0 0.0 steals 4 2 2.5 0.71 2 3 1 0.5 ------------------------------------------------------------ group: C vars n mean sd min max range se team 1 3 NaN NA Inf -Inf -Inf NA points 2 3 20.00 9.54 11 30 19 5.51 rebounds 3 3 9.67 3.06 7 13 6 1.76 steals 4 3 5.67 1.15 5 7 2 0.67
La sortie affiche les statistiques récapitulatives pour chacune des trois équipes dans le bloc de données.
Ressources additionnelles
Comment calculer le résumé de cinq nombres dans R
Comment calculer la moyenne par groupe dans R
Comment calculer la somme par groupe dans R
Comment calculer la variance dans R
Comment créer une matrice de covariance dans R