Hoe de summary()-functie in r te gebruiken (met voorbeelden)


De functie summary() in R kan worden gebruikt om snel waarden samen te vatten in een vector, dataframe, regressiemodel of ANOVA-model in R.

Deze syntaxis gebruikt de volgende basissyntaxis:

 summary(data)

De volgende voorbeelden laten zien hoe u deze functie in de praktijk kunt gebruiken.

Voorbeeld 1: summary() gebruiken met Vector

De volgende code laat zien hoe u de functie summary() gebruikt om waarden samen te vatten in een vector:

 #definevector
x <- c(3, 4, 4, 5, 7, 8, 9, 12, 13, 13, 15, 19, 21)

#summarize values in vector
summary(x)

   Min. 1st Qu. Median Mean 3rd Qu. Max. 
   3.00 5.00 9.00 10.23 13.00 21.00 

De functie summary() berekent automatisch de volgende samenvattende statistieken voor de vector:

  • Min: de minimumwaarde
  • 1e Qu: de waarde van het 1e kwartiel (25e percentiel)
  • Mediaan: de mediaanwaarde
  • 3e Qu: de waarde van het 3e kwartiel (75e percentiel)
  • Max: de maximale waarde

Houd er rekening mee dat als er ontbrekende waarden (NA) in de vector voorkomen, de functie summary() deze automatisch zal uitsluiten bij het berekenen van de samenvattende statistieken:

 #definevector
x <- c(3, 4, 4, 5, 7, 8, 9, 12, 13, 13, 15, 19, 21, NA, NA)

#summarize values in vector
summary(x)

   Min. 1st Qu. Median Mean 3rd Qu. Max. NA's 
   3.00 5.00 9.00 10.23 13.00 21.00 2

Voorbeeld 2: summary() gebruiken met Data Frame

De volgende code laat zien hoe u de functie summary() gebruikt om elke kolom in een gegevensframe samen te vatten:

 #define data frame
df <- data. frame (team=c('A', 'B', 'C', 'D', 'E'),
                 points=c(99, 90, 86, 88, 95),
                 assists=c(33, 28, 31, 39, 34),
                 rebounds=c(30, 28, 24, 24, 28))

#summarize every column in data frame
summary(df)

     team points assists rebounds   
 Length:5 Min. :86.0 Min. :28 Min. :24.0  
 Class:character 1st Qu.:88.0 1st Qu.:31 1st Qu.:24.0  
 Mode:character Median:90.0 Median:33 Median:28.0  
                    Mean:91.6 Mean:33 Mean:26.8  
                    3rd Qu.:95.0 3rd Qu.:34 3rd Qu.:28.0  
                    Max. :99.0 Max. :39 Max. :30.0 

Voorbeeld 3: summary() gebruiken met specifieke dataframekolommen

De volgende code laat zien hoe u de functie summary() gebruikt om specifieke kolommen in een dataframe samen te vatten:

 #define data frame
df <- data. frame (team=c('A', 'B', 'C', 'D', 'E'),
                 points=c(99, 90, 86, 88, 95),
                 assists=c(33, 28, 31, 39, 34),
                 rebounds=c(30, 28, 24, 24, 28))

#summarize every column in data frame
summary(df[c(' points ', ' rebounds ')])

     rebound points   
 Min. :86.0 Min. :24.0  
 1st Qu.:88.0 1st Qu.:24.0  
 Median:90.0 Median:28.0  
 Mean:91.6 Mean:26.8  
 3rd Qu.:95.0 3rd Qu.:28.0  
 Max. :99.0 Max. :30.0

Voorbeeld 4: summary() gebruiken met een regressiemodel

De volgende code laat zien hoe u de functie summary() gebruikt om de resultaten van een lineair regressiemodel samen te vatten:

 #define data
df <- data. frame (y=c(99, 90, 86, 88, 95, 99, 91),
                 x=c(33, 28, 31, 39, 34, 35, 36))

#fit linear regression model
model <- lm(y~x, data=df)

#summarize model fit
summary(model)

Call:
lm(formula = y ~ x, data = df)

Residuals:
     1 2 3 4 5 6 7 
 6,515 -1,879 -6,242 -5,212 2,394 6,273 -1,848 

Coefficients:
            Estimate Std. Error t value Pr(>|t|)  
(Intercept) 88.4848 22.1050 4.003 0.0103 *
x 0.1212 0.6526 0.186 0.8599  
---
Significant. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1

Residual standard error: 5.668 on 5 degrees of freedom
Multiple R-squared: 0.006853, Adjusted R-squared: -0.1918 
F-statistic: 0.0345 on 1 and 5 DF, p-value: 0.8599

Gerelateerd: Hoe regressie-uitvoer in R te interpreteren

Voorbeeld 5: summary() gebruiken met het ANOVA-model

De volgende code laat zien hoe u de functie summary() gebruikt om de resultaten van een ANOVA-model in R samen te vatten:

 #make this example reproducible
set. seeds (0)

#create data frame
data <- data. frame (program = rep (c("A", "B", "C"), each = 30 ),
                   weight_loss = c(runif(30, 0, 3),
                                   runif(30, 0, 5),
                                   runif(30, 1, 7)))

#fit ANOVA model
model <- aov(weight_loss ~ program, data = data)

#summarize model fit
summary(model)

            Df Sum Sq Mean Sq F value Pr(>F)    
program 2 98.93 49.46 30.83 7.55e-11 ***
Residuals 87 139.57 1.60                     
---
Significant. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1

Gerelateerd: ANOVA-resultaten interpreteren in R

Aanvullende bronnen

De volgende tutorials bieden meer informatie over het berekenen van samenvattende statistieken in R:

Hoe de samenvatting van vijf getallen in R te berekenen
De eenvoudigste manier om samenvattende tabellen te maken in R
Hoe relatieve frequentietabellen te maken in R

Einen Kommentar hinzufügen

Deine E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind mit * markiert