Comment utiliser la fonction summary() dans R (avec exemples)

Par Dr. Benjamin Anderson juillet 23, 2023 Guide 0 commentaire

La fonction summary() dans R peut être utilisée pour résumer rapidement les valeurs dans un vecteur, une trame de données, un modèle de régression ou un modèle ANOVA dans R.

Cette syntaxe utilise la syntaxe de base suivante :

summary(data)

Les exemples suivants montrent comment utiliser cette fonction dans la pratique.

Exemple 1 : Utilisation de summary() avec Vector

Le code suivant montre comment utiliser la fonction summary() pour résumer les valeurs dans un vecteur :

#define vector
x <- c(3, 4, 4, 5, 7, 8, 9, 12, 13, 13, 15, 19, 21)

#summarize values in vector
summary(x)

   Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
   3.00    5.00    9.00   10.23   13.00   21.00

La fonction summary() calcule automatiquement les statistiques récapitulatives suivantes pour le vecteur :

Min : la valeur minimale
1er Qu : La valeur du 1er quartile (25e centile)
Médiane : la valeur médiane
3e Qu : La valeur du 3e quartile (75e centile)
Max : la valeur maximale

Notez que s’il y a des valeurs manquantes (NA) dans le vecteur, la fonction summary() les exclura automatiquement lors du calcul des statistiques récapitulatives :

#define vector
x <- c(3, 4, 4, 5, 7, 8, 9, 12, 13, 13, 15, 19, 21, NA, NA)

#summarize values in vector
summary(x)

   Min. 1st Qu.  Median    Mean 3rd Qu.    Max.    NA's 
   3.00    5.00    9.00   10.23   13.00   21.00       2

Exemple 2 : Utilisation de summary() avec Data Frame

Le code suivant montre comment utiliser la fonction summary() pour résumer chaque colonne d’un bloc de données :

#define data frame
df <- data.frame(team=c('A', 'B', 'C', 'D', 'E'),
                 points=c(99, 90, 86, 88, 95),
                 assists=c(33, 28, 31, 39, 34),
                 rebounds=c(30, 28, 24, 24, 28))

#summarize every column in data frame
summary(df)

     team               points        assists      rebounds   
 Length:5           Min.   :86.0   Min.   :28   Min.   :24.0  
 Class :character   1st Qu.:88.0   1st Qu.:31   1st Qu.:24.0  
 Mode  :character   Median :90.0   Median :33   Median :28.0  
                    Mean   :91.6   Mean   :33   Mean   :26.8  
                    3rd Qu.:95.0   3rd Qu.:34   3rd Qu.:28.0  
                    Max.   :99.0   Max.   :39   Max.   :30.0

Exemple 3 : Utilisation de summary() avec des colonnes de blocs de données spécifiques

Le code suivant montre comment utiliser la fonction summary() pour résumer des colonnes spécifiques dans un bloc de données :

#define data frame
df <- data.frame(team=c('A', 'B', 'C', 'D', 'E'),
                 points=c(99, 90, 86, 88, 95),
                 assists=c(33, 28, 31, 39, 34),
                 rebounds=c(30, 28, 24, 24, 28))

#summarize every column in data frame
summary(df[c('points', 'rebounds')])

     points        rebounds   
 Min.   :86.0   Min.   :24.0  
 1st Qu.:88.0   1st Qu.:24.0  
 Median :90.0   Median :28.0  
 Mean   :91.6   Mean   :26.8  
 3rd Qu.:95.0   3rd Qu.:28.0  
 Max.   :99.0   Max.   :30.0

Exemple 4 : Utilisation de summary() avec un modèle de régression

Le code suivant montre comment utiliser la fonction summary() pour résumer les résultats d’un modèle de régression linéaire :

#define data
df <- data.frame(y=c(99, 90, 86, 88, 95, 99, 91),
                 x=c(33, 28, 31, 39, 34, 35, 36))

#fit linear regression model
model <- lm(y~x, data=df)

#summarize model fit
summary(model)

Call:
lm(formula = y ~ x, data = df)

Residuals:
     1      2      3      4      5      6      7 
 6.515 -1.879 -6.242 -5.212  2.394  6.273 -1.848 

Coefficients:
            Estimate Std. Error t value Pr(>|t|)  
(Intercept)  88.4848    22.1050   4.003   0.0103 *
x             0.1212     0.6526   0.186   0.8599  
---
Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1

Residual standard error: 5.668 on 5 degrees of freedom
Multiple R-squared:  0.006853,	Adjusted R-squared:  -0.1918 
F-statistic: 0.0345 on 1 and 5 DF,  p-value: 0.8599

Connexe : Comment interpréter la sortie de régression dans R

Exemple 5 : Utilisation de summary() avec le modèle ANOVA

Le code suivant montre comment utiliser la fonction summary() pour résumer les résultats d’un modèle ANOVA dans R :

#make this example reproducible
set.seed(0)

#create data frame
data <- data.frame(program = rep(c("A", "B", "C"), each = 30),
                   weight_loss = c(runif(30, 0, 3),
                                   runif(30, 0, 5),
                                   runif(30, 1, 7)))

#fit ANOVA model
model <- aov(weight_loss ~ program, data = data)

#summarize model fit
summary(model)

            Df Sum Sq Mean Sq F value   Pr(>F)    
program      2  98.93   49.46   30.83 7.55e-11 ***
Residuals   87 139.57    1.60                     
---
Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1

Connexes : Comment interpréter les résultats de l’ANOVA dans R

Ressources additionnelles

Les didacticiels suivants offrent plus d’informations sur le calcul des statistiques récapitulatives dans R :

Comment calculer le résumé de cinq nombres dans R
Le moyen le plus simple de créer des tableaux récapitulatifs dans R
Comment créer des tableaux de fréquences relatives dans R

à propos de l'auteur

Dr. Benjamin Anderson

Il est un professeur de statistiques à la retraite devenu éducateur dévoué sur Statorials. Avec une vaste expérience et une expertise dans le domaine des statistiques, je m'engage à partager mes connaissances pour responsabiliser les étudiants grâce à Statorials. Lire plus