Hoe u een t-test uitvoert voor de helling van de regressielijn in r
We voeren een eenvoudige lineaire regressie uit, we eindigen met de volgende geschatte regressievergelijking:
ŷ = b0 + b1 x
Over het algemeen willen we weten of de hellingscoëfficiënt b 1 statistisch significant is.
Om te bepalen of b 1 statistisch significant is, kunnen we een t-test uitvoeren met de volgende teststatistiek:
t = b1 / se( b1 )
Goud:
- se(b 1 ) vertegenwoordigt de standaardfout van b 1 .
We kunnen dan de p-waarde berekenen die overeenkomt met deze teststatistiek met n-2 vrijheidsgraden.
Als de p-waarde kleiner is dan een bepaalde drempel (bijvoorbeeld α = 0,05), kunnen we concluderen dat de hellingscoëfficiënt niet nul is.
Met andere woorden: er is een statistisch significante relatie tussen de voorspellende variabele en deresponsvariabele in het model.
Het volgende voorbeeld laat zien hoe u een t-test uitvoert voor de helling van een regressielijn in R.
Voorbeeld: uitvoeren van een t-test voor de helling van de regressielijn in R
Stel dat we het volgende dataframe in R hebben dat informatie bevat over de gestudeerde uren en de eindexamenscores behaald door 12 studenten in een klas:
#create data frame df <- data. frame (hours=c(1, 1, 2, 2, 3, 4, 5, 5, 5, 6, 6, 8), score=c(65, 67, 78, 75, 73, 84, 80, 76, 89, 91, 83, 82)) #view data frame df hours score 1 1 65 2 1 67 3 2 78 4 2 75 5 3 73 6 4 84 7 5 80 8 5 76 9 5 89 10 6 91 11 6 83 12 8 82
Laten we zeggen dat we een eenvoudig lineair regressiemodel willen toepassen om te bepalen of er een statistisch significante relatie bestaat tussen de bestudeerde uren en examenscores.
We kunnen de functie lm() in R gebruiken om in dit regressiemodel te passen:
#fit simple linear regression model fit <- lm(score ~ hours, data=df) #view model summary summary(fit) Call: lm(formula = score ~ hours, data = df) Residuals: Min 1Q Median 3Q Max -7,398 -3,926 -1,139 4,972 7,713 Coefficients: Estimate Std. Error t value Pr(>|t|) (Intercept) 67.7685 3.3757 20.075 2.07e-09 *** hours 2.7037 0.7456 3.626 0.00464 ** --- Significant. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1 Residual standard error: 5.479 on 10 degrees of freedom Multiple R-squared: 0.568, Adjusted R-squared: 0.5248 F-statistic: 13.15 on 1 and 10 DF, p-value: 0.004641
Uit de modelresultaten kunnen we zien dat de geschatte regressievergelijking is:
Examenscore = 67,7685 + 2,7037 (uren)
Om te testen of de hellingscoëfficiënt statistisch significant is, kunnen we de t-teststatistiek als volgt berekenen:
- t = b1 / se( b1 )
- t = 2,7037 / 0,7456
- t = 3,626
De p-waarde die overeenkomt met deze t-teststatistiek wordt weergegeven in de kolom Pr(> |t|) in de uitvoer.
De p-waarde blijkt 0,00464 te zijn.
Omdat deze p-waarde kleiner is dan 0,05, concluderen we dat de hellingscoëfficiënt statistisch significant is.
Met andere woorden: er is een statistisch significante relatie tussen het aantal gestudeerde uren en het eindcijfer dat een student op het examen heeft behaald.
Aanvullende bronnen
In de volgende tutorials wordt uitgelegd hoe u andere veelvoorkomende taken in R kunt uitvoeren:
Hoe eenvoudige lineaire regressie uit te voeren in R
Hoe meervoudige lineaire regressie uit te voeren in R
Hoe regressie-uitvoer in R te interpreteren