Hoe het betrouwbaarheidsinterval voor de regressiecoëfficiënt in r te berekenen
In een lineair regressiemodel vertelt een regressiecoëfficiënt ons de gemiddelde verandering in deresponsvariabele die gepaard gaat met een toename van één eenheid in de voorspellende variabele.
We kunnen de volgende formule gebruiken om een betrouwbaarheidsinterval voor een regressiecoëfficiënt te berekenen:
Betrouwbaarheidsinterval voor β 1 : b 1 ± t 1-α/2, n-2 * se(b 1 )
Goud:
- b 1 = Regressiecoëfficiënt weergegeven in de regressietabel
- t 1-∝/2, n-2 = De kritische t-waarde voor het 1-∝ betrouwbaarheidsniveau met n-2 vrijheidsgraden waarbij n het totale aantal waarnemingen in onze dataset is
- se(b 1 ) = De standaardfout van b 1 weergegeven in de regressietabel
Het volgende voorbeeld laat zien hoe u in de praktijk een betrouwbaarheidsinterval voor een regressiehelling kunt berekenen.
Voorbeeld: betrouwbaarheidsinterval voor regressiecoëfficiënt in R
Stel dat we een eenvoudig lineair regressiemodel willen toepassen met bestudeerde uren als voorspellende variabele en examenscores als responsvariabele voor 15 leerlingen in een bepaalde klas:
We kunnen de functie lm() gebruiken om dit eenvoudige lineaire regressiemodel in R te passen:
#create data frame df <- data. frame (hours=c(1, 2, 4, 5, 5, 6, 6, 7, 8, 10, 11, 11, 12, 12, 14), score=c(64, 66, 76, 73, 74, 81, 83, 82, 80, 88, 84, 82, 91, 93, 89)) #fit linear regression model fit <- lm(score ~ hours, data=df) #view model summary summary(fit) Call: lm(formula = score ~ hours, data = df) Residuals: Min 1Q Median 3Q Max -5,140 -3,219 -1,193 2,816 5,772 Coefficients: Estimate Std. Error t value Pr(>|t|) (Intercept) 65,334 2,106 31,023 1.41e-13 *** hours 1.982 0.248 7.995 2.25e-06 *** --- Significant. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1 Residual standard error: 3.641 on 13 degrees of freedom Multiple R-squared: 0.831, Adjusted R-squared: 0.818 F-statistic: 63.91 on 1 and 13 DF, p-value: 2.253e-06
Met behulp van de coëfficiëntschattingen in het resultaat kunnen we het gepaste eenvoudige lineaire regressiemodel als volgt schrijven:
Score = 65.334 + 1.982*(Uren bestudeerd)
Merk op dat de regressiecoëfficiënt voor uren 1,982 is.
Dit vertelt ons dat elk extra uur studietijd gepaard gaat met een gemiddelde stijging van 1.982 in de examenscore.
We kunnen de functie confint() gebruiken om een betrouwbaarheidsinterval van 95% voor de regressiecoëfficiënt te berekenen:
#calculate confidence interval for regression coefficient for 'hours' confint(fit, ' hours ', level= 0.95 ) 2.5% 97.5% hours 1.446682 2.518068
Het 95% betrouwbaarheidsinterval voor de regressiecoëfficiënt is [1,446, 2,518] .
Omdat dit betrouwbaarheidsinterval niet de waarde 0 bevat, kunnen we concluderen dat er een statistisch significant verband bestaat tussen het aantal gestudeerde uren en het examencijfer.
We kunnen ook bevestigen dat dit correct is door handmatig het 95% betrouwbaarheidsinterval voor de regressiecoëfficiënt te berekenen:
- 95% BI voor β 1 : b 1 ± t 1-α/2, n-2 * se(b 1 )
- 95% BI voor β 1 : 1,982 ± t 0,975, 15-2 * 0,248
- 95% BI voor β 1 : 1,982 ± 2,1604 * 0,248
- 95% BI voor β 1 : [1,446, 2,518]
Het 95% betrouwbaarheidsinterval voor de regressiecoëfficiënt is [1,446, 2,518] .
Opmerking #1 : We hebben de inverse t-verdelingscalculator gebruikt om de kritische t-waarde te vinden die overeenkomt met een betrouwbaarheidsniveau van 95% met 13 vrijheidsgraden.
Opmerking 2 : Om een betrouwbaarheidsinterval met een ander betrouwbaarheidsniveau te berekenen, wijzigt u eenvoudigweg de waarde van het niveau- argument in de functie confint() .
Aanvullende bronnen
De volgende zelfstudies bieden aanvullende informatie over lineaire regressie in R:
Hoe regressie-uitvoer in R te interpreteren
Hoe eenvoudige lineaire regressie uit te voeren in R
Hoe meervoudige lineaire regressie uit te voeren in R
Hoe logistische regressie uit te voeren in R