Bivariate analyse uitvoeren in r (met voorbeelden)

Von Dr.benjamin anderson Juli 22, 2023 Gids Keine Kommentare

De term bivariate analyse verwijst naar de analyse van twee variabelen. U kunt dit onthouden omdat het voorvoegsel “bi” “twee” betekent.

Het doel van bivariate analyse is om de relatie tussen twee variabelen te begrijpen

Er zijn drie veelgebruikte manieren om bivariate analyses uit te voeren:

1. Puntenwolken

2. Correlatiecoëfficiënten

3. Eenvoudige lineaire regressie

Het volgende voorbeeld laat zien hoe u elk van deze soorten bivariate analyses kunt uitvoeren met behulp van de volgende dataset die informatie over twee variabelen bevat: (1) Uren besteed aan studeren en (2) Toetsscores behaald door 20 verschillende studenten:

 #create data frame
df <- data. frame (hours=c(1, 1, 1, 2, 2, 2, 3, 3, 3, 3,
                         3, 4, 4, 5, 5, 6, 6, 6, 7, 8),
                 score=c(75, 66, 68, 74, 78, 72, 85, 82, 90, 82,
                         80, 88, 85, 90, 92, 94, 94, 88, 91, 96))

#view first six rows of data frame
head(df)

  hours score
1 1 75
2 1 66
3 1 68
4 2 74
5 2 78
6 2 72

1. Puntenwolken

We kunnen de volgende syntaxis gebruiken om een spreidingsdiagram te maken van de bestudeerde uren versus het examencijfer in R:

 #create scatterplot of hours studied vs. exam score
plot(df$hours, df$score, pch= 16 , col=' steelblue ',
     main=' Hours Studied vs. Exam Score ',
     xlab=' Hours Studied ', ylab=' Exam Score ')

Op de x-as staan de bestudeerde uren en op de y-as het behaalde cijfer voor het examen.

Uit de grafiek blijkt dat er een positief verband bestaat tussen beide variabelen: naarmate het aantal studie-uren toeneemt, stijgen ook de examenscores.

2. Correlatiecoëfficiënten

Een Pearson-correlatiecoëfficiënt is een manier om de lineaire relatie tussen twee variabelen te kwantificeren.

We kunnen de functie cor() in R gebruiken om de Pearson-correlatiecoëfficiënt tussen twee variabelen te berekenen:

 #calculate correlation between hours studied and exam score received
cor(df$hours, df$score)

[1] 0.891306

De correlatiecoëfficiënt blijkt 0,891 te zijn.

Deze waarde ligt dicht bij 1, wat wijst op een sterke positieve correlatie tussen het aantal gestudeerde uren en het examencijfer.

3. Eenvoudige lineaire regressie

Eenvoudige lineaire regressie is een statistische methode die we kunnen gebruiken om de vergelijking van de lijn te vinden die het beste bij een reeks gegevens past, die we vervolgens kunnen gebruiken om de exacte relatie tussen twee variabelen te begrijpen.

We kunnen de functie lm() in R gebruiken om een eenvoudig lineair regressiemodel uit te voeren voor de bestudeerde uren en ontvangen examenresultaten:

 #fit simple linear regression model
fit <- lm(score ~ hours, data=df)

#view summary of model
summary(fit)

Call:
lm(formula = score ~ hours, data = df)

Residuals:
   Min 1Q Median 3Q Max 
-6,920 -3,927 1,309 1,903 9,385 

Coefficients:
            Estimate Std. Error t value Pr(>|t|)    
(Intercept) 69.0734 1.9651 35.15 < 2nd-16 ***
hours 3.8471 0.4613 8.34 1.35e-07 ***
---
Significant. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1

Residual standard error: 4.171 on 18 degrees of freedom
Multiple R-squared: 0.7944, Adjusted R-squared: 0.783 
F-statistic: 69.56 on 1 and 18 DF, p-value: 1.347e-07

De gepaste regressievergelijking blijkt te zijn:

Examenscore = 69.0734 + 3.8471*(uren gestudeerd)

Dit vertelt ons dat elk extra uur dat wordt gestudeerd, gepaard gaat met een gemiddelde stijging van 3,8471 in de examenscore.

We kunnen de gepaste regressievergelijking ook gebruiken om de score te voorspellen die een student zal behalen op basis van het totale aantal bestudeerde uren.

Een student die bijvoorbeeld 3 uur studeert, zou een score van 81,6147 moeten behalen:

Examenscore = 69.0734 + 3.8471*(uren gestudeerd)
Examenscore = 69,0734 + 3,8471*(3)
Examenresultaat = 81,6147

Aanvullende bronnen

De volgende tutorials bieden aanvullende informatie over bivariate analyse:

Een inleiding tot bivariate analyse
5 voorbeelden van bivariate gegevens in het echte leven
Een inleiding tot eenvoudige lineaire regressie

Über den Autor

Dr.benjamin anderson

Ik ben Benjamin, een gepensioneerde hoogleraar statistiek die nu een toegewijde Statorials-lesgever is. Ik heb uitgebreide ervaring en expertise op het gebied van statistiek en ik ben vastbesloten om mijn kennis te delen met studenten via Statorials. Lees verder

1. Puntenwolken

2. Correlatiecoëfficiënten

3. Eenvoudige lineaire regressie

Aanvullende bronnen

Über den Autor

Dr.benjamin anderson

Einen Kommentar hinzufügen