Comment utiliser la fonction summary() dans R (avec exemples)
La fonction summary() dans R peut être utilisée pour résumer rapidement les valeurs dans un vecteur, une trame de données, un modèle de régression ou un modèle ANOVA dans R.
Cette syntaxe utilise la syntaxe de base suivante :
summary(data)
Les exemples suivants montrent comment utiliser cette fonction dans la pratique.
Exemple 1 : Utilisation de summary() avec Vector
Le code suivant montre comment utiliser la fonction summary() pour résumer les valeurs dans un vecteur :
#define vector x <- c(3, 4, 4, 5, 7, 8, 9, 12, 13, 13, 15, 19, 21) #summarize values in vector summary(x) Min. 1st Qu. Median Mean 3rd Qu. Max. 3.00 5.00 9.00 10.23 13.00 21.00
La fonction summary() calcule automatiquement les statistiques récapitulatives suivantes pour le vecteur :
- Min : la valeur minimale
- 1er Qu : La valeur du 1er quartile (25e centile)
- Médiane : la valeur médiane
- 3e Qu : La valeur du 3e quartile (75e centile)
- Max : la valeur maximale
Notez que s’il y a des valeurs manquantes (NA) dans le vecteur, la fonction summary() les exclura automatiquement lors du calcul des statistiques récapitulatives :
#define vector x <- c(3, 4, 4, 5, 7, 8, 9, 12, 13, 13, 15, 19, 21, NA, NA) #summarize values in vector summary(x) Min. 1st Qu. Median Mean 3rd Qu. Max. NA's 3.00 5.00 9.00 10.23 13.00 21.00 2
Exemple 2 : Utilisation de summary() avec Data Frame
Le code suivant montre comment utiliser la fonction summary() pour résumer chaque colonne d’un bloc de données :
#define data frame df <- data.frame(team=c('A', 'B', 'C', 'D', 'E'), points=c(99, 90, 86, 88, 95), assists=c(33, 28, 31, 39, 34), rebounds=c(30, 28, 24, 24, 28)) #summarize every column in data frame summary(df) team points assists rebounds Length:5 Min. :86.0 Min. :28 Min. :24.0 Class :character 1st Qu.:88.0 1st Qu.:31 1st Qu.:24.0 Mode :character Median :90.0 Median :33 Median :28.0 Mean :91.6 Mean :33 Mean :26.8 3rd Qu.:95.0 3rd Qu.:34 3rd Qu.:28.0 Max. :99.0 Max. :39 Max. :30.0
Exemple 3 : Utilisation de summary() avec des colonnes de blocs de données spécifiques
Le code suivant montre comment utiliser la fonction summary() pour résumer des colonnes spécifiques dans un bloc de données :
#define data frame df <- data.frame(team=c('A', 'B', 'C', 'D', 'E'), points=c(99, 90, 86, 88, 95), assists=c(33, 28, 31, 39, 34), rebounds=c(30, 28, 24, 24, 28)) #summarize every column in data frame summary(df[c('points', 'rebounds')]) points rebounds Min. :86.0 Min. :24.0 1st Qu.:88.0 1st Qu.:24.0 Median :90.0 Median :28.0 Mean :91.6 Mean :26.8 3rd Qu.:95.0 3rd Qu.:28.0 Max. :99.0 Max. :30.0
Exemple 4 : Utilisation de summary() avec un modèle de régression
Le code suivant montre comment utiliser la fonction summary() pour résumer les résultats d’un modèle de régression linéaire :
#define data df <- data.frame(y=c(99, 90, 86, 88, 95, 99, 91), x=c(33, 28, 31, 39, 34, 35, 36)) #fit linear regression model model <- lm(y~x, data=df) #summarize model fit summary(model) Call: lm(formula = y ~ x, data = df) Residuals: 1 2 3 4 5 6 7 6.515 -1.879 -6.242 -5.212 2.394 6.273 -1.848 Coefficients: Estimate Std. Error t value Pr(>|t|) (Intercept) 88.4848 22.1050 4.003 0.0103 * x 0.1212 0.6526 0.186 0.8599 --- Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1 Residual standard error: 5.668 on 5 degrees of freedom Multiple R-squared: 0.006853, Adjusted R-squared: -0.1918 F-statistic: 0.0345 on 1 and 5 DF, p-value: 0.8599
Connexe : Comment interpréter la sortie de régression dans R
Exemple 5 : Utilisation de summary() avec le modèle ANOVA
Le code suivant montre comment utiliser la fonction summary() pour résumer les résultats d’un modèle ANOVA dans R :
#make this example reproducible set.seed(0) #create data frame data <- data.frame(program = rep(c("A", "B", "C"), each = 30), weight_loss = c(runif(30, 0, 3), runif(30, 0, 5), runif(30, 1, 7))) #fit ANOVA model model <- aov(weight_loss ~ program, data = data) #summarize model fit summary(model) Df Sum Sq Mean Sq F value Pr(>F) program 2 98.93 49.46 30.83 7.55e-11 *** Residuals 87 139.57 1.60 --- Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
Connexes : Comment interpréter les résultats de l’ANOVA dans R
Ressources additionnelles
Les didacticiels suivants offrent plus d’informations sur le calcul des statistiques récapitulatives dans R :
Comment calculer le résumé de cinq nombres dans R
Le moyen le plus simple de créer des tableaux récapitulatifs dans R
Comment créer des tableaux de fréquences relatives dans R