Die nullhypothese für die lineare regression verstehen
Die lineare Regression ist eine Technik, mit der wir die Beziehung zwischen einer oder mehreren Prädiktorvariablen und einer Antwortvariablen verstehen können.
Wenn wir nur eine Prädiktorvariable und eine Antwortvariable haben, können wir eine einfache lineare Regression verwenden, die die folgende Formel verwendet, um die Beziehung zwischen den Variablen abzuschätzen:
ŷ = β 0 + β 1 x
Gold:
- ŷ: Der geschätzte Antwortwert.
- β 0 : Der Durchschnittswert von y, wenn x Null ist.
- β 1 : Die durchschnittliche Änderung von y, die mit einem Anstieg von x um eine Einheit verbunden ist.
- x: der Wert der Vorhersagevariablen.
Die einfache lineare Regression verwendet die folgenden Null- und Alternativhypothesen:
- H 0 : β 1 = 0
- H A : β 1 ≠ 0
Die Nullhypothese besagt, dass der Koeffizient β 1 gleich Null ist. Mit anderen Worten: Es besteht keine statistisch signifikante Beziehung zwischen der Prädiktorvariablen x und der Antwortvariablen y.
Die Alternativhypothese besagt, dass β 1 ungleich Null ist. Mit anderen Worten: Es besteht eine statistisch signifikante Beziehung zwischen x und y.
Wenn wir mehrere Prädiktorvariablen und eine Antwortvariable haben, können wir die multiple lineare Regression verwenden, die die folgende Formel verwendet, um die Beziehung zwischen den Variablen zu schätzen:
ŷ = β 0 + β 1 x 1 + β 2 x 2 + … + β k x k
Gold:
- ŷ: Der geschätzte Antwortwert.
- β 0 : Der Durchschnittswert von y, wenn alle Prädiktorvariablen gleich Null sind.
- β i : Die durchschnittliche Änderung von y, die mit einem Anstieg von x i um eine Einheit verbunden ist.
- x i : Der Wert der Prädiktorvariablen x i .
Bei der multiplen linearen Regression werden die folgenden Null- und Alternativhypothesen verwendet:
- H 0 : β 1 = β 2 = … = β k = 0
- H A : β 1 = β 2 = … = β k ≠ 0
Die Nullhypothese besagt, dass alle Koeffizienten im Modell gleich Null sind. Mit anderen Worten: Keine der Prädiktorvariablen weist eine statistisch signifikante Beziehung zur Antwortvariablen y auf.
Die Alternativhypothese besagt, dass nicht alle Koeffizienten gleichzeitig gleich Null sind.
Die folgenden Beispiele zeigen, wie Sie entscheiden können, ob die Nullhypothese in einfachen linearen Regressionsmodellen und mehreren linearen Regressionsmodellen abgelehnt werden soll oder nicht.
Beispiel 1: Einfache lineare Regression
Angenommen, ein Professor möchte die Anzahl der gelernten Stunden nutzen, um die Prüfungsnote vorherzusagen, die die Studenten seiner Klasse erreichen werden. Es sammelt Daten von 20 Studenten und passt ein einfaches lineares Regressionsmodell an.
Der folgende Screenshot zeigt das Ergebnis des Regressionsmodells:
Das angepasste einfache lineare Regressionsmodell lautet:
Prüfungsergebnis = 67,1617 + 5,2503*(Studienstunden)
Um festzustellen, ob ein statistisch signifikanter Zusammenhang zwischen den gelernten Stunden und dem Prüfungsergebnis besteht, müssen wir den Gesamt-F-Wert des Modells und den entsprechenden p-Wert analysieren:
- Gesamt-F-Wert: 47,9952
- P-Wert: 0,000
Da dieser p-Wert kleiner als 0,05 ist, können wir die Nullhypothese ablehnen. Mit anderen Worten: Es besteht ein statistisch signifikanter Zusammenhang zwischen den Lernstunden und den Prüfungsergebnissen.
Beispiel 2: Multiple lineare Regression
Angenommen, ein Professor möchte die Anzahl der Lernstunden und die Anzahl der abgelegten Vorbereitungsprüfungen nutzen, um die Note vorherzusagen, die die Schüler in seiner Klasse erreichen werden. Es sammelt Daten von 20 Studenten und passt ein multiples lineares Regressionsmodell an.
Der folgende Screenshot zeigt das Ergebnis des Regressionsmodells:
Das angepasste multiple lineare Regressionsmodell lautet:
Prüfungsergebnis = 67,67 + 5,56*(studierte Stunden) – 0,60*(abgelegte Vorbereitungsprüfungen)
Um festzustellen, ob zwischen den beiden Prädiktorvariablen und der Antwortvariablen eine statistisch signifikante Beziehung besteht, müssen wir den Gesamt-F-Wert des Modells und den entsprechenden p-Wert analysieren:
- Gesamt-F-Wert: 23,46
- P-Wert: 0,00
Da dieser p-Wert kleiner als 0,05 ist, können wir die Nullhypothese ablehnen. Mit anderen Worten: Die gelernten Stunden und die absolvierten Vorbereitungsprüfungen stehen in einem statistisch signifikanten Zusammenhang mit den Prüfungsergebnissen.
Hinweis: Obwohl der p-Wert für abgelegte Vorbereitungsprüfungen (p = 0,52) nicht signifikant ist, haben die Vorbereitungsprüfungen in Kombination mit den gelernten Stunden einen signifikanten Zusammenhang mit den Prüfungsergebnissen.
Zusätzliche Ressourcen
Den F-Test für Gesamtsignifikanz in der Regression verstehen
So lesen und interpretieren Sie eine Regressionstabelle
So melden Sie Regressionsergebnisse
So führen Sie eine einfache lineare Regression in Excel durch
So führen Sie eine multiple lineare Regression in Excel durch