Comment utiliser la fonction summary() dans R (avec exemples)



La fonction summary() dans R peut être utilisée pour résumer rapidement les valeurs dans un vecteur, une trame de données, un modèle de régression ou un modèle ANOVA dans R.

Cette syntaxe utilise la syntaxe de base suivante :

summary(data)

Les exemples suivants montrent comment utiliser cette fonction dans la pratique.

Exemple 1 : Utilisation de summary() avec Vector

Le code suivant montre comment utiliser la fonction summary() pour résumer les valeurs dans un vecteur :

#define vector
x <- c(3, 4, 4, 5, 7, 8, 9, 12, 13, 13, 15, 19, 21)

#summarize values in vector
summary(x)

   Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
   3.00    5.00    9.00   10.23   13.00   21.00 

La fonction summary() calcule automatiquement les statistiques récapitulatives suivantes pour le vecteur :

  • Min : la valeur minimale
  • 1er Qu : La valeur du 1er quartile (25e centile)
  • Médiane : la valeur médiane
  • 3e Qu : La valeur du 3e quartile (75e centile)
  • Max : la valeur maximale

Notez que s’il y a des valeurs manquantes (NA) dans le vecteur, la fonction summary() les exclura automatiquement lors du calcul des statistiques récapitulatives :

#define vector
x <- c(3, 4, 4, 5, 7, 8, 9, 12, 13, 13, 15, 19, 21, NA, NA)

#summarize values in vector
summary(x)

   Min. 1st Qu.  Median    Mean 3rd Qu.    Max.    NA's 
   3.00    5.00    9.00   10.23   13.00   21.00       2

Exemple 2 : Utilisation de summary() avec Data Frame

Le code suivant montre comment utiliser la fonction summary() pour résumer chaque colonne d’un bloc de données :

#define data frame
df <- data.frame(team=c('A', 'B', 'C', 'D', 'E'),
                 points=c(99, 90, 86, 88, 95),
                 assists=c(33, 28, 31, 39, 34),
                 rebounds=c(30, 28, 24, 24, 28))

#summarize every column in data frame
summary(df)

     team               points        assists      rebounds   
 Length:5           Min.   :86.0   Min.   :28   Min.   :24.0  
 Class :character   1st Qu.:88.0   1st Qu.:31   1st Qu.:24.0  
 Mode  :character   Median :90.0   Median :33   Median :28.0  
                    Mean   :91.6   Mean   :33   Mean   :26.8  
                    3rd Qu.:95.0   3rd Qu.:34   3rd Qu.:28.0  
                    Max.   :99.0   Max.   :39   Max.   :30.0 

Exemple 3 : Utilisation de summary() avec des colonnes de blocs de données spécifiques

Le code suivant montre comment utiliser la fonction summary() pour résumer des colonnes spécifiques dans un bloc de données :

#define data frame
df <- data.frame(team=c('A', 'B', 'C', 'D', 'E'),
                 points=c(99, 90, 86, 88, 95),
                 assists=c(33, 28, 31, 39, 34),
                 rebounds=c(30, 28, 24, 24, 28))

#summarize every column in data frame
summary(df[c('points', 'rebounds')])

     points        rebounds   
 Min.   :86.0   Min.   :24.0  
 1st Qu.:88.0   1st Qu.:24.0  
 Median :90.0   Median :28.0  
 Mean   :91.6   Mean   :26.8  
 3rd Qu.:95.0   3rd Qu.:28.0  
 Max.   :99.0   Max.   :30.0 

Exemple 4 : Utilisation de summary() avec un modèle de régression

Le code suivant montre comment utiliser la fonction summary() pour résumer les résultats d’un modèle de régression linéaire :

#define data
df <- data.frame(y=c(99, 90, 86, 88, 95, 99, 91),
                 x=c(33, 28, 31, 39, 34, 35, 36))

#fit linear regression model
model <- lm(y~x, data=df)

#summarize model fit
summary(model)

Call:
lm(formula = y ~ x, data = df)

Residuals:
     1      2      3      4      5      6      7 
 6.515 -1.879 -6.242 -5.212  2.394  6.273 -1.848 

Coefficients:
            Estimate Std. Error t value Pr(>|t|)  
(Intercept)  88.4848    22.1050   4.003   0.0103 *
x             0.1212     0.6526   0.186   0.8599  
---
Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1

Residual standard error: 5.668 on 5 degrees of freedom
Multiple R-squared:  0.006853,	Adjusted R-squared:  -0.1918 
F-statistic: 0.0345 on 1 and 5 DF,  p-value: 0.8599

Connexe : Comment interpréter la sortie de régression dans R

Exemple 5 : Utilisation de summary() avec le modèle ANOVA

Le code suivant montre comment utiliser la fonction summary() pour résumer les résultats d’un modèle ANOVA dans R :

#make this example reproducible
set.seed(0)

#create data frame
data <- data.frame(program = rep(c("A", "B", "C"), each = 30),
                   weight_loss = c(runif(30, 0, 3),
                                   runif(30, 0, 5),
                                   runif(30, 1, 7)))

#fit ANOVA model
model <- aov(weight_loss ~ program, data = data)

#summarize model fit
summary(model)

            Df Sum Sq Mean Sq F value   Pr(>F)    
program      2  98.93   49.46   30.83 7.55e-11 ***
Residuals   87 139.57    1.60                     
---
Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1

Connexes : Comment interpréter les résultats de l’ANOVA dans R

Ressources additionnelles

Les didacticiels suivants offrent plus d’informations sur le calcul des statistiques récapitulatives dans R :

Comment calculer le résumé de cinq nombres dans R
Le moyen le plus simple de créer des tableaux récapitulatifs dans R
Comment créer des tableaux de fréquences relatives dans R

Ajouter un commentaire

Votre adresse e-mail ne sera pas publiée. Les champs obligatoires sont indiqués avec *