So interpretieren sie p-werte in der linearen regression (mit beispiel)
In der Statistik werden lineare Regressionsmodelle verwendet, um die Beziehung zwischen einer oder mehreren Prädiktorvariablen und einer Antwortvariablen zu quantifizieren.
Jedes Mal, wenn Sie eine Regressionsanalyse mit einer Statistiksoftware durchführen, erhalten Sie eine Regressionstabelle, die die Ergebnisse des Modells zusammenfasst.
Zwei der wichtigsten Werte in einer Regressionstabelle sind die Regressionskoeffizienten und ihre entsprechenden p-Werte .
Die p-Werte sagen Ihnen, ob zwischen jeder Prädiktorvariablen und der Antwortvariablen eine statistisch signifikante Beziehung besteht oder nicht.
Das folgende Beispiel zeigt, wie die p-Werte eines multiplen linearen Regressionsmodells in der Praxis interpretiert werden.
Beispiel: Interpretation von P-Werten in einem Regressionsmodell
Angenommen, wir möchten ein Regressionsmodell mithilfe der folgenden Variablen anpassen:
Predictor Variablen
- Gesamtzahl der gelernten Stunden (zwischen 0 und 20)
- Ob der Student einen Nachhilfelehrer in Anspruch genommen hat oder nicht (ja oder nein)
Antwortvariable
- Prüfungsergebnis (zwischen 0 und 100)
Wir wollen den Zusammenhang zwischen den Prädiktorvariablen und der Antwortvariablen untersuchen, um herauszufinden, ob Lern- und Nachhilfestunden tatsächlich einen signifikanten Einfluss auf die Prüfungsergebnisse haben.
Angenommen, wir führen eine Regressionsanalyse durch und erhalten das folgende Ergebnis:
Begriff | Koeffizient | Standart Fehler | t Statistik | P-Wert |
---|---|---|---|---|
Abfangen | 48,56 | 14:32 Uhr | 3.39 | 0,002 |
Stunden studiert | 2.03 | 0,67 | 3.03 | 0,009 |
Tutor | 8.34 | 5,68 | 1,47 | 0,138 |
So interpretieren Sie das Ergebnis jedes Termes im Modell:
Interpretation des P-Werts für den Achsenabschnitt
Der ursprüngliche Term in einer Regressionstabelle gibt uns den erwarteten Durchschnittswert für die Antwortvariable an, wenn alle Prädiktorvariablen gleich Null sind.
In diesem Beispiel beträgt der Regressionskoeffizient für den Ursprung 48,56 . Das bedeutet, dass für einen Studenten, der null Stunden studiert hat , die durchschnittliche erwartete Prüfungspunktzahl 48,56 beträgt.
Der p-Wert beträgt 0,002 , was uns sagt, dass der ursprüngliche Term statistisch von Null verschieden ist.
In der Praxis ist uns der p-Wert für den Originalterm im Allgemeinen egal. Selbst wenn der p-Wert nicht unter einem bestimmten Signifikanzniveau liegt (z. B. 0,05), würden wir dennoch den ursprünglichen Term im Modell beibehalten.
Interpretieren des P-Werts für eine kontinuierliche Prädiktorvariable
In diesem Beispiel handelt es sich bei den untersuchten Stunden um eine kontinuierliche Prädiktorvariable, die zwischen 0 und 20 Stunden liegt.
Aus dem Regressionsergebnis können wir ersehen, dass der Regressionskoeffizient für die untersuchten Stunden 2,03 beträgt. Dies bedeutet, dass im Durchschnitt jede zusätzlich gelernte Stunde mit einer Verbesserung der Abschlussprüfung um 2,03 Punkte verbunden ist, vorausgesetzt, dass die Prädiktorvariable Tutor konstant gehalten wird.
Stellen Sie sich zum Beispiel Schüler A vor, der 10 Stunden lang lernt und einen Nachhilfelehrer beauftragt. Denken Sie auch an Student B, der 11 Stunden lang lernt und auch einen Tutor in Anspruch nimmt. Gemäß unseren Regressionsergebnissen wird erwartet, dass Schüler B in der Prüfung 2,03 Punkte besser abschneidet als Schüler A.
Der entsprechende p-Wert beträgt 0,009 , was bei einem Alpha-Wert von 0,05 statistisch signifikant ist.
Dies zeigt uns, dass die durchschnittliche Veränderung der Prüfungsergebnisse für jede zusätzliche Unterrichtsstunde statistisch signifikant von Null abweicht .
Mit anderen Worten: Die gelernten Stunden stehen in einem statistisch signifikanten Zusammenhang mit der Antwortvariable Prüfungsergebnis .
Interpretieren des P-Werts für eine kategoriale Prädiktorvariable
In diesem Beispiel ist Tutor eine kategoriale Prädiktorvariable, die zwei verschiedene Werte annehmen kann:
- 1 = Der Student hat einen Tutor zur Vorbereitung auf die Prüfung eingesetzt
- 0 = Der Student hat zur Prüfungsvorbereitung keinen Tutor in Anspruch genommen
Aus dem Regressionsergebnis können wir ersehen, dass der Regressionskoeffizient für Tutor 8,34 beträgt. Dies bedeutet, dass ein Student, der einen Nachhilfelehrer in Anspruch genommen hat, in der Prüfung im Durchschnitt 8,34 Punkte besser abgeschnitten hat als ein Student, der keinen Nachhilfelehrer in Anspruch genommen hat, vorausgesetzt, dass die Prädiktorvariable „Studierende Stunden“ konstant bleibt.
Stellen Sie sich zum Beispiel Schüler A vor, der 10 Stunden lang lernt und einen Nachhilfelehrer beauftragt. Denken Sie auch an Student B, der 10 Stunden lernt und keinen Nachhilfelehrer in Anspruch nimmt. Gemäß unseren Regressionsergebnissen wird erwartet, dass Schüler A eine um 8,34 Punkte höhere Prüfungspunktzahl erzielt als Schüler B.
Der entsprechende p-Wert beträgt 0,138 , was bei einem Alpha-Wert von 0,05 statistisch nicht signifikant ist.
Dies zeigt uns, dass die durchschnittliche Veränderung der Prüfungsergebnisse für jede zusätzliche Unterrichtsstunde statistisch gesehen nicht signifikant von Null abweicht .
Anders ausgedrückt: Die Prädiktorvariable Tutor hat keine statistisch signifikante Beziehung zur Antwortvariable Prüfungsergebnis .
Dies deutet darauf hin, dass Studierende, die einen Tutor in Anspruch genommen haben, bei der Prüfung zwar bessere Ergebnisse erzielten, dieser Unterschied jedoch auf Glück zurückzuführen sein könnte.
Zusätzliche Ressourcen
Die folgenden Tutorials bieten zusätzliche Informationen zur linearen Regression:
So interpretieren Sie den F-Test für die Gesamtsignifikanz bei der Regression
Die fünf Annahmen der multiplen linearen Regression
Den t-Test in der linearen Regression verstehen