Come utilizzare la funzione summary() in r (con esempi)


La funzione summary() in R può essere utilizzata per riepilogare rapidamente i valori in un vettore, frame di dati, modello di regressione o modello ANOVA in R.

Questa sintassi utilizza la seguente sintassi di base:

 summary(data)

I seguenti esempi mostrano come utilizzare questa funzione nella pratica.

Esempio 1: utilizzo di summary() con Vector

Il codice seguente mostra come utilizzare la funzione summary() per riepilogare i valori in un vettore:

 #definevector
x <- c(3, 4, 4, 5, 7, 8, 9, 12, 13, 13, 15, 19, 21)

#summarize values in vector
summary(x)

   Min. 1st Qu. Median Mean 3rd Qu. Max. 
   3.00 5.00 9.00 10.23 13.00 21.00 

La funzione summary() calcola automaticamente le seguenti statistiche di riepilogo per il vettore:

  • Min: il valore minimo
  • 1° Qu: il valore del 1° quartile (25° percentile)
  • Mediana: il valore mediano
  • 3° Qu: il valore del 3° quartile (75° percentile)
  • Max: il valore massimo

Tieni presente che se nel vettore sono presenti valori mancanti (NA), la funzione summary() li escluderà automaticamente durante il calcolo delle statistiche riassuntive:

 #definevector
x <- c(3, 4, 4, 5, 7, 8, 9, 12, 13, 13, 15, 19, 21, NA, NA)

#summarize values in vector
summary(x)

   Min. 1st Qu. Median Mean 3rd Qu. Max. NA's 
   3.00 5.00 9.00 10.23 13.00 21.00 2

Esempio 2: utilizzo di summary() con Data Frame

Il codice seguente mostra come utilizzare la funzione summary() per riepilogare ciascuna colonna in un frame di dati:

 #define data frame
df <- data. frame (team=c('A', 'B', 'C', 'D', 'E'),
                 points=c(99, 90, 86, 88, 95),
                 assists=c(33, 28, 31, 39, 34),
                 rebounds=c(30, 28, 24, 24, 28))

#summarize every column in data frame
summary(df)

     team points assists rebounds   
 Length:5 Min. :86.0 Min. :28 Min. :24.0  
 Class:character 1st Qu.:88.0 1st Qu.:31 1st Qu.:24.0  
 Mode:character Median:90.0 Median:33 Median:28.0  
                    Mean:91.6 Mean:33 Mean:26.8  
                    3rd Qu.:95.0 3rd Qu.:34 3rd Qu.:28.0  
                    Max. :99.0 Max. :39 Max. :30.0 

Esempio 3: utilizzo di summary() con colonne di frame di dati specifici

Il codice seguente mostra come utilizzare la funzione summary() per riepilogare colonne specifiche in un frame di dati:

 #define data frame
df <- data. frame (team=c('A', 'B', 'C', 'D', 'E'),
                 points=c(99, 90, 86, 88, 95),
                 assists=c(33, 28, 31, 39, 34),
                 rebounds=c(30, 28, 24, 24, 28))

#summarize every column in data frame
summary(df[c(' points ', ' rebounds ')])

     rebound points   
 Min. :86.0 Min. :24.0  
 1st Qu.:88.0 1st Qu.:24.0  
 Median:90.0 Median:28.0  
 Mean:91.6 Mean:26.8  
 3rd Qu.:95.0 3rd Qu.:28.0  
 Max. :99.0 Max. :30.0

Esempio 4: utilizzo di summary() con un modello di regressione

Il codice seguente mostra come utilizzare la funzione summary() per riepilogare i risultati di un modello di regressione lineare:

 #define data
df <- data. frame (y=c(99, 90, 86, 88, 95, 99, 91),
                 x=c(33, 28, 31, 39, 34, 35, 36))

#fit linear regression model
model <- lm(y~x, data=df)

#summarize model fit
summary(model)

Call:
lm(formula = y ~ x, data = df)

Residuals:
     1 2 3 4 5 6 7 
 6,515 -1,879 -6,242 -5,212 2,394 6,273 -1,848 

Coefficients:
            Estimate Std. Error t value Pr(>|t|)  
(Intercept) 88.4848 22.1050 4.003 0.0103 *
x 0.1212 0.6526 0.186 0.8599  
---
Significant. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1

Residual standard error: 5.668 on 5 degrees of freedom
Multiple R-squared: 0.006853, Adjusted R-squared: -0.1918 
F-statistic: 0.0345 on 1 and 5 DF, p-value: 0.8599

Correlati: come interpretare l’output della regressione in R

Esempio 5: utilizzo di summary() con il modello ANOVA

Il codice seguente mostra come utilizzare la funzione summary() per riepilogare i risultati di un modello ANOVA in R:

 #make this example reproducible
set. seeds (0)

#create data frame
data <- data. frame (program = rep (c("A", "B", "C"), each = 30 ),
                   weight_loss = c(runif(30, 0, 3),
                                   runif(30, 0, 5),
                                   runif(30, 1, 7)))

#fit ANOVA model
model <- aov(weight_loss ~ program, data = data)

#summarize model fit
summary(model)

            Df Sum Sq Mean Sq F value Pr(>F)    
program 2 98.93 49.46 30.83 7.55e-11 ***
Residuals 87 139.57 1.60                     
---
Significant. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1

Correlati: Come interpretare i risultati ANOVA in R

Risorse addizionali

I seguenti tutorial offrono ulteriori informazioni sul calcolo delle statistiche di riepilogo in R:

Come calcolare la sintesi di cinque numeri in R
Il modo più semplice per creare tabelle di riepilogo in R
Come creare tabelle di frequenza relativa in R

Aggiungi un commento

Il tuo indirizzo email non sarà pubblicato. I campi obbligatori sono contrassegnati *