Le moyen le plus simple de créer des tableaux récapitulatifs dans R



Le moyen le plus simple de créer des tableaux récapitulatifs dans R est d’utiliser les fonctions décrire() et décrireBy() de la bibliothèque psych .

library(psych)

#create summary table
describe(df)

#create summary table, grouped by a specific variable
describeBy(df, group=df$var_name)

Les exemples suivants montrent comment utiliser ces fonctions dans la pratique.

Exemple 1 : Créer un tableau récapitulatif de base

Supposons que nous ayons le bloc de données suivant dans R :

#create data frame
df <- data.frame(team=c('A', 'A', 'B', 'B', 'C', 'C', 'C'),
                 points=c(15, 22, 29, 41, 30, 11, 19),
                 rebounds=c(7, 8, 6, 6, 7, 9, 13),
                 steals=c(1, 1, 2, 3, 5, 7, 5))

#view data frame
df

  team points rebounds steals
1    A     15        7      1
2    A     22        8      1
3    B     29        6      2
4    B     41        6      3
5    C     30        7      5
6    C     11        9      7
7    C     19       13      5

Nous pouvons utiliser la fonction décrire() pour créer un tableau récapitulatif pour chaque variable du bloc de données :

library(psych) 

#create summary table
describe(df)

         vars n  mean    sd median trimmed   mad min max range  skew kurtosis
team*       1 7  2.14  0.90      2    2.14  1.48   1   3     2 -0.22    -1.90
points      2 7 23.86 10.24     22   23.86 10.38  11  41    30  0.33    -1.41
rebounds    3 7  8.00  2.45      7    8.00  1.48   6  13     7  1.05    -0.38
steals      4 7  3.43  2.30      3    3.43  2.97   1   7     6  0.25    -1.73
           se
team*    0.34
points   3.87
rebounds 0.93
steals   0.87

Voici comment interpréter chaque valeur dans le résultat :

  • vars : numéro de colonne
  • n : Nombre de cas valides
  • moyenne : La valeur moyenne
  • médiane : La valeur médiane
  • trimmed : La moyenne tronquée (par défaut, 10 % des observations sont supprimées à chaque extrémité)
  • mad : L’écart médian absolu (par rapport à la médiane)
  • min : La valeur minimale
  • max : La valeur maximale
  • range : La plage de valeurs (max – min)
  • skew : L’asymétrie
  • kurtosis : L’aplatissement
  • se : L’erreur standard

Il est important de noter que toute variable accompagnée d’un astérisque (*) est une variable catégorielle ou logique qui a été convertie en variable numérique avec des valeurs qui représentent l’ordre numérique des valeurs.

Dans notre exemple, la variable « équipe » a été convertie en variable numérique, nous ne devons donc pas interpréter littéralement les statistiques récapitulatives correspondantes.

Notez également que vous pouvez utiliser l’argument fast=TRUE pour calculer uniquement les statistiques récapitulatives les plus courantes :

#create smaller summary table
describe(df, fast=TRUE)

         vars n  mean    sd min  max range   se
team        1 7   NaN    NA Inf -Inf  -Inf   NA
points      2 7 23.86 10.24  11   41    30 3.87
rebounds    3 7  8.00  2.45   6   13     7 0.93
steals      4 7  3.43  2.30   1    7     6 0.87

Nous pouvons également choisir de calculer uniquement les statistiques récapitulatives pour certaines variables du bloc de données :

#create summary table for just 'points' and 'rebounds' columns
describe(df[ , c('points', 'rebounds')], fast=TRUE)

         vars n  mean    sd min max range   se
points      1 7 23.86 10.24  11  41    30 3.87
rebounds    2 7  8.00  2.45   6  13     7 0.93

Exemple 2 : créer un tableau récapitulatif, regroupé par variable spécifique

Le code suivant montre comment utiliser la fonction décrireBy() pour créer un tableau récapitulatif pour le bloc de données, regroupé par la variable « équipe » :

#create summary table, grouped by 'team' variable
describeBy(df, group=df$team, fast=TRUE)

 Descriptive statistics by group 
group: A
         vars n mean   sd min  max range  se
team        1 2  NaN   NA Inf -Inf  -Inf  NA
points      2 2 18.5 4.95  15   22     7 3.5
rebounds    3 2  7.5 0.71   7    8     1 0.5
steals      4 2  1.0 0.00   1    1     0 0.0
------------------------------------------------------------ 
group: B
         vars n mean   sd min  max range  se
team        1 2  NaN   NA Inf -Inf  -Inf  NA
points      2 2 35.0 8.49  29   41    12 6.0
rebounds    3 2  6.0 0.00   6    6     0 0.0
steals      4 2  2.5 0.71   2    3     1 0.5
------------------------------------------------------------ 
group: C
         vars n  mean   sd min  max range   se
team        1 3   NaN   NA Inf -Inf  -Inf   NA
points      2 3 20.00 9.54  11   30    19 5.51
rebounds    3 3  9.67 3.06   7   13     6 1.76
steals      4 3  5.67 1.15   5    7     2 0.67

La sortie affiche les statistiques récapitulatives pour chacune des trois équipes dans le bloc de données.

Ressources additionnelles

Comment calculer le résumé de cinq nombres dans R
Comment calculer la moyenne par groupe dans R
Comment calculer la somme par groupe dans R
Comment calculer la variance dans R
Comment créer une matrice de covariance dans R

Ajouter un commentaire

Votre adresse e-mail ne sera pas publiée. Les champs obligatoires sont indiqués avec *