So interpretieren sie regressionskoeffizienten


In der Statistik istdie Regressionsanalyse eine Technik, mit der die Beziehung zwischen Prädiktorvariablen und einer Antwortvariablen analysiert werden kann.

Wenn Sie Software (wie R , Stata , SPSS usw.) zur Durchführung einer Regressionsanalyse verwenden, erhalten Sie als Ausgabe eine Regressionstabelle, die die Regressionsergebnisse zusammenfasst.

Die wohl wichtigsten Zahlen im Ergebnis der Regressionstabelle sind die Regressionskoeffizienten . Doch trotz ihrer Bedeutung fällt es vielen Menschen schwer, diese Zahlen richtig zu interpretieren.

Dieses Tutorial stellt ein Beispiel einer Regressionsanalyse vor und bietet eine detaillierte Erklärung, wie die aus der Regression resultierenden Regressionskoeffizienten zu interpretieren sind.

Verwandte Themen: So lesen und interpretieren Sie eine gesamte Regressionstabelle

Ein Beispiel für eine Regressionsanalyse

Angenommen, wir möchten eine Regressionsanalyse mit den folgenden Variablen durchführen :

Predictor Variablen

  • Gesamtzahl der gelernten Stunden ( kontinuierliche Variable – zwischen 0 und 20 )
  • Ob der Student einen Tutor in Anspruch genommen hat oder nicht ( kategoriale Variable – „ja“ oder „nein“ )

Antwortvariable

  • Prüfungsergebnis ( kontinuierliche Variable – zwischen 1 und 100 )

Wir wollen die Beziehung zwischen den Prädiktorvariablen und der Antwortvariablen untersuchen, um zu sehen, ob die gelernten Stunden und die Frage, ob ein Student einen Tutor in Anspruch genommen hat, tatsächlich einen signifikanten Einfluss auf seine Prüfungsnote haben.

Angenommen, wir führen eine Regressionsanalyse durch und erhalten das folgende Ergebnis:

Begriff Koeffizient Standart Fehler t Statistik P-Wert
Abfangen 48,56 14:32 Uhr 3.39 0,002
Stunden studiert 2.03 0,67 3.03 0,009
Tutor 8.34 5,68 1,47 0,138

Sehen wir uns an, wie die einzelnen Regressionskoeffizienten zu interpretieren sind.

Interpretation des Abfangens

Der ursprüngliche Term in einer Regressionstabelle gibt uns den erwarteten Durchschnittswert für die Antwortvariable an, wenn alle Prädiktorvariablen gleich Null sind.

In diesem Beispiel beträgt der Regressionskoeffizient für den Ursprung 48,56 . Das bedeutet, dass für einen Studenten, der null Stunden studiert hat ( Stunden studiert = 0) und keinen Tutor in Anspruch genommen hat ( Tutor = 0), die durchschnittliche erwartete Prüfungspunktzahl 48,56 beträgt.

Es ist wichtig zu beachten, dass der Regressionskoeffizient für den Achsenabschnitt nur dann signifikant ist, wenn davon auszugehen ist, dass alle Prädiktorvariablen im Modell tatsächlich gleich Null sein könnten. In diesem Beispiel ist es durchaus möglich, dass ein Student null Stunden studiert hat ( Lernstunden = 0) und auch keinen Nachhilfelehrer in Anspruch genommen hat ( Nachhilfelehrer = 0). Daher ist die Interpretation des Regressionskoeffizienten des Achsenabschnitts in diesem Beispiel sinnvoll.

In einigen Fällen ist der Regressionskoeffizient für den Achsenabschnitt jedoch nicht signifikant. Angenommen, wir führen eine Regressionsanalyse mit der Quadratmeterzahl als Prädiktorvariable und dem Hauswert als Antwortvariable durch.

In der Ausgabe-Regressionstabelle hätte der Regressionskoeffizient für den ursprünglichen Begriff keine sinnvolle Interpretation, da die Quadratmeterzahl eines Hauses niemals gleich Null sein kann. In diesem Fall verankert der Regressionskoeffizient für den Originalterm die Regressionsgerade einfach an der richtigen Stelle.

Interpretieren des Koeffizienten einer kontinuierlichen Prädiktorvariablen

Bei einer kontinuierlichen Prädiktorvariablen stellt der Regressionskoeffizient die Differenz zwischen dem vorhergesagten Wert der Antwortvariablen für jede Änderung der Prädiktorvariablen um eine Einheit dar, vorausgesetzt, dass alle anderen Prädiktorvariablen konstant bleiben.

In diesem Beispiel handelt es sich bei den untersuchten Stunden um eine kontinuierliche Prädiktorvariable, die zwischen 0 und 20 Stunden liegt. In einigen Fällen lernte ein Student nur null Stunden und in anderen Fällen lernte ein Student bis zu 20 Stunden.

Aus dem Regressionsergebnis können wir ersehen, dass der Regressionskoeffizient für die untersuchten Stunden 2,03 beträgt. Dies bedeutet, dass im Durchschnitt jede zusätzlich gelernte Stunde mit einer Verbesserung der Abschlussprüfung um 2,03 Punkte verbunden ist, vorausgesetzt, dass die Prädiktorvariable Tutor konstant gehalten wird.

Stellen Sie sich zum Beispiel Schüler A vor, der 10 Stunden lang lernt und einen Nachhilfelehrer beauftragt. Denken Sie auch an Student B, der 11 Stunden lang lernt und auch einen Tutor in Anspruch nimmt. Gemäß unseren Regressionsergebnissen wird erwartet, dass Schüler B in der Prüfung 2,03 Punkte besser abschneidet als Schüler A.

Der p-Wert der Regressionstabelle sagt uns, ob dieser Regressionskoeffizient tatsächlich statistisch signifikant ist oder nicht. Wir können sehen, dass der p-Wert für die untersuchten Stunden 0,009 beträgt, was bei einem Alpha-Wert von 0,05 statistisch signifikant ist.

Hinweis: Der Alpha-Wert muss vor der Durchführung der Regressionsanalyse ausgewählt werden – übliche Optionen für den Alpha-Wert sind 0,01, 0,05 und 0,10.

Verwandter Artikel: Eine Erklärung der P-Werte und ihrer statistischen Signifikanz

Interpretieren des Koeffizienten einer kategorialen Prädiktorvariablen

Für eine kategoriale Prädiktorvariable stellt der Regressionskoeffizient die Differenz im vorhergesagten Wert der Antwortvariablen zwischen der Kategorie, für die die Prädiktorvariable = 0 und der Kategorie, für die die Prädiktorvariable = 1 ist, dar.

In diesem Beispiel ist Tutor eine kategoriale Prädiktorvariable, die zwei verschiedene Werte annehmen kann:

  • 1 = Der Student hat einen Tutor zur Vorbereitung auf die Prüfung eingesetzt
  • 0 = Der Student hat zur Prüfungsvorbereitung keinen Tutor in Anspruch genommen

Aus dem Regressionsergebnis können wir ersehen, dass der Regressionskoeffizient für Tutor 8,34 beträgt. Dies bedeutet, dass ein Student, der einen Nachhilfelehrer in Anspruch genommen hat, in der Prüfung im Durchschnitt 8,34 Punkte besser abschneidet als ein Student, der keinen Nachhilfelehrer in Anspruch genommen hat, vorausgesetzt, dass die Prädiktorvariable „ Studierende Stunden“ konstant bleibt.

Stellen Sie sich zum Beispiel Schüler A vor, der 10 Stunden lang lernt und einen Nachhilfelehrer beauftragt. Denken Sie auch an Student B, der 10 Stunden lernt und keinen Nachhilfelehrer in Anspruch nimmt. Gemäß unseren Regressionsergebnissen wird erwartet, dass Schüler A eine um 8,34 Punkte höhere Prüfungspunktzahl erzielt als Schüler B.

Der p-Wert der Regressionstabelle sagt uns, ob dieser Regressionskoeffizient tatsächlich statistisch signifikant ist oder nicht. Wir können sehen, dass der p-Wert für Tutor 0,138 beträgt, was bei einem Alpha-Wert von 0,05 statistisch nicht signifikant ist. Dies deutet darauf hin, dass Studierende, die einen Tutor in Anspruch genommen haben, bei der Prüfung zwar bessere Ergebnisse erzielten, dieser Unterschied jedoch auf Zufall zurückzuführen sein könnte.

Interpretieren Sie alle Koeffizienten auf einmal

Wir können alle Koeffizienten in der Regressionstabelle verwenden, um die folgende geschätzte Regressionsgleichung zu erstellen:

Erwartetes Prüfungsergebnis = 48,56 + 2,03*(Studienstunden) + 8,34*(Tutor)

Hinweis : Beachten Sie, dass die Prädiktorvariable „Tutor“ auf dem Alpha-Niveau von 0,05 statistisch nicht signifikant war. Daher können Sie diesen Prädiktor aus dem Modell entfernen und ihn nicht in der endgültigen Schätzung der Regressionsgleichung verwenden.

Mithilfe dieser geschätzten Regressionsgleichung können wir die Abschlussprüfungsnote eines Studenten basierend auf der Gesamtzahl seiner Lernstunden und der Frage, ob er einen Nachhilfelehrer in Anspruch genommen hat, vorhersagen.

Beispielsweise sollte ein Student, der 10 Stunden lang gelernt und einen Nachhilfelehrer in Anspruch genommen hat, eine Prüfungspunktzahl von Folgendem erhalten:

Erwartetes Prüfungsergebnis = 48,56 + 2,03*(10) + 8,34*(1) = 77,2

Berücksichtigung der Korrelation bei der Interpretation von Regressionskoeffizienten

Es ist wichtig zu bedenken, dass sich Prädiktorvariablen in einem Regressionsmodell gegenseitig beeinflussen können. Beispielsweise stehen die meisten Prädiktorvariablen zumindest in gewissem Zusammenhang zueinander (z. B. ist es wahrscheinlicher, dass ein Student, der mehr lernt, einen Nachhilfelehrer in Anspruch nimmt).

Dies bedeutet, dass sich die Regressionskoeffizienten ändern, wenn verschiedene Prädiktorvariablen zum Modell hinzugefügt oder daraus entfernt werden.

Eine gute Möglichkeit, festzustellen, ob die Korrelation zwischen den Prädiktorvariablen schwerwiegend genug ist, um das Regressionsmodell ernsthaft zu beeinflussen, besteht darin , den VIF zwischen den Prädiktorvariablen zu überprüfen .

Dadurch erfahren Sie, ob die Korrelation zwischen den Prädiktorvariablen ein Problem darstellt, das gelöst werden muss, bevor Sie sich für die Interpretation der Regressionskoeffizienten entscheiden.

Wenn Sie ein einfaches lineares Regressionsmodell mit einem einzelnen Prädiktor ausführen, stellen korrelierte Prädiktorvariablen kein Problem dar.

Einen Kommentar hinzufügen

Deine E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind mit * markiert