So führen sie einen t-test für die steigung der regressionsgeraden in r durch
Wir führen eine einfache lineare Regression durch und erhalten am Ende die folgende geschätzte Regressionsgleichung:
ŷ = b 0 + b 1 x
Im Allgemeinen möchten wir wissen, ob der Steigungskoeffizient b 1 statistisch signifikant ist.
Um festzustellen, ob b 1 statistisch signifikant ist, können wir einen t-Test mit der folgenden Teststatistik durchführen:
t = b 1 / se(b 1 )
Gold:
- se(b 1 ) stellt den Standardfehler von b 1 dar.
Anschließend können wir den p-Wert berechnen, der dieser Teststatistik mit n-2 Freiheitsgraden entspricht.
Wenn der p-Wert unter einem bestimmten Schwellenwert liegt (z. B. α = 0,05), können wir daraus schließen, dass der Steigungskoeffizient ungleich Null ist.
Mit anderen Worten: Es besteht eine statistisch signifikante Beziehung zwischen der Prädiktorvariablen und der Antwortvariablen im Modell.
Das folgende Beispiel zeigt, wie ein t-Test für die Steigung einer Regressionslinie in R durchgeführt wird.
Beispiel: Ausführen eines t-Tests für die Steigung der Regressionsgeraden in R
Angenommen, wir haben den folgenden Datenrahmen in R, der Informationen über die gelernten Stunden und die von 12 Schülern einer Klasse erzielten Abschlussprüfungsergebnisse enthält:
#create data frame df <- data. frame (hours=c(1, 1, 2, 2, 3, 4, 5, 5, 5, 6, 6, 8), score=c(65, 67, 78, 75, 73, 84, 80, 76, 89, 91, 83, 82)) #view data frame df hours score 1 1 65 2 1 67 3 2 78 4 2 75 5 3 73 6 4 84 7 5 80 8 5 76 9 5 89 10 6 91 11 6 83 12 8 82
Nehmen wir an, wir möchten ein einfaches lineares Regressionsmodell anpassen, um festzustellen, ob ein statistisch signifikanter Zusammenhang zwischen den Lernstunden und den Prüfungsergebnissen besteht.
Wir können die Funktion lm() in R verwenden, um dieses Regressionsmodell anzupassen:
#fit simple linear regression model fit <- lm(score ~ hours, data=df) #view model summary summary(fit) Call: lm(formula = score ~ hours, data = df) Residuals: Min 1Q Median 3Q Max -7,398 -3,926 -1,139 4,972 7,713 Coefficients: Estimate Std. Error t value Pr(>|t|) (Intercept) 67.7685 3.3757 20.075 2.07e-09 *** hours 2.7037 0.7456 3.626 0.00464 ** --- Significant. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1 Residual standard error: 5.479 on 10 degrees of freedom Multiple R-squared: 0.568, Adjusted R-squared: 0.5248 F-statistic: 13.15 on 1 and 10 DF, p-value: 0.004641
Aus den Modellergebnissen können wir ersehen, dass die geschätzte Regressionsgleichung lautet:
Prüfungsergebnis = 67,7685 + 2,7037 (Stunden)
Um zu testen, ob der Steigungskoeffizient statistisch signifikant ist, können wir die T-Test-Statistik wie folgt berechnen:
- t = b 1 / se(b 1 )
- t = 2,7037 / 0,7456
- t = 3,626
Der p-Wert, der dieser T-Test-Statistik entspricht, wird in der Spalte mit dem Namen Pr(> |t|) in der Ausgabe angezeigt.
Der p-Wert beträgt 0,00464 .
Da dieser p-Wert kleiner als 0,05 ist, schließen wir, dass der Steigungskoeffizient statistisch signifikant ist.
Mit anderen Worten: Es besteht ein statistisch signifikanter Zusammenhang zwischen der Anzahl der gelernten Stunden und der Abschlussnote, die ein Student bei der Prüfung erhält.
Zusätzliche Ressourcen
In den folgenden Tutorials wird erläutert, wie Sie andere häufige Aufgaben in R ausführen:
So führen Sie eine einfache lineare Regression in R durch
So führen Sie eine multiple lineare Regression in R durch
So interpretieren Sie die Regressionsausgabe in R