So interpretieren sie die regressionsausgabe in excel
Die multiple lineare Regression ist eine der am häufigsten verwendeten Techniken in der gesamten Statistik.
In diesem Tutorial wird erläutert, wie die einzelnen Werte in der Ausgabe eines multiplen linearen Regressionsmodells in Excel interpretiert werden.
Beispiel: Interpretieren der Regressionsausgabe in Excel
Angenommen, wir möchten wissen, ob die Anzahl der Lernstunden und die Anzahl der abgelegten Vorbereitungsprüfungen die Note beeinflussen, die ein Student bei einer bestimmten Hochschulaufnahmeprüfung erhält.
Um diesen Zusammenhang zu untersuchen, können wir eine multiple lineare Regression durchführen, indem wir die untersuchten Stunden und vorbereitenden Prüfungen als Prädiktorvariablen und die Prüfungsergebnisse als Antwortvariable verwenden.
Der folgende Screenshot zeigt die Regressionsausgabe dieses Modells in Excel:
So interpretieren Sie die größten Werte in der Ausgabe:
Mehrfaches R: 0,857 . Dies stellt die mehrfache Korrelation zwischen der Antwortvariablen und den beiden Prädiktorvariablen dar.
R-Quadrat: 0,734 . Dies wird als Bestimmtheitsmaß bezeichnet. Es ist der Anteil der Varianz der Antwortvariablen, der durch die erklärenden Variablen erklärt werden kann. In diesem Beispiel lassen sich 73,4 % der Abweichungen bei den Prüfungsergebnissen durch die Anzahl der gelernten Stunden und die Anzahl der abgelegten Vorbereitungsprüfungen erklären.
Angepasstes R-Quadrat: 0,703 . Dies stellt den R-Quadrat-Wert dar, angepasst an die Anzahl der Prädiktorvariablen im Modell . Dieser Wert ist ebenfalls niedriger als der R-Quadrat-Wert und bestraft Modelle, die zu viele Prädiktorvariablen im Modell verwenden.
Standardfehler: 5,366 . Dies ist der durchschnittliche Abstand zwischen den beobachteten Werten und der Regressionsgeraden. In diesem Beispiel weichen die beobachteten Werte im Durchschnitt um 5.366 Einheiten von der Regressionsgeraden ab.
Kommentare: 20 . Gesamtstichprobengröße des Datensatzes, der zur Erstellung des Regressionsmodells verwendet wurde.
F: 23:46 Uhr Dies ist die Gesamt-F-Statistik für das Regressionsmodell, berechnet als Regressions-MS/Rest-MS.
Bedeutung F: 0,0000 . Dies ist der p-Wert, der der gesamten F-Statistik zugeordnet ist. Dies sagt uns, ob das Regressionsmodell als Ganzes statistisch signifikant ist oder nicht.
In diesem Fall liegt der p-Wert unter 0,05, was darauf hindeutet, dass die erklärenden Variablen , gelernte Stunden und absolvierte Vorbereitungsprüfungen zusammen, einen statistisch signifikanten Zusammenhang mit dem Prüfungsergebnis haben.
Koeffizienten: Die Koeffizienten jeder erklärenden Variablen geben Auskunft über die erwartete durchschnittliche Änderung der Antwortvariablen unter der Annahme, dass die andere erklärende Variable konstant bleibt.
Beispielsweise würde sich die durchschnittliche Prüfungspunktzahl für jede weitere Lernstunde voraussichtlich um 5,56 erhöhen, vorausgesetzt, dass die Anzahl der absolvierten Übungsprüfungen konstant bleibt.
Wir interpretieren den Intercept-Koeffizienten so, dass die erwartete Prüfungspunktzahl für einen Studenten, der keine Stunden studiert und keine Vorbereitungsprüfungen ablegt, 67,67 beträgt.
P-Werte. Einzelne p-Werte sagen uns, ob jede erklärende Variable statistisch signifikant ist oder nicht. Wir können sehen, dass die Anzahl der gelernten Stunden statistisch signifikant ist (p = 0,00), während die Anzahl der absolvierten Vorbereitungsprüfungen (p = 0,52) mit α = 0,05 statistisch nicht signifikant ist.
So schreiben Sie die geschätzte Regressionsgleichung
Wir können die Koeffizienten aus der Modellausgabe verwenden, um die folgende geschätzte Regressionsgleichung zu erstellen:
Prüfungsergebnis = 67,67 + 5,56*(Stunden) – 0,60*(Vorbereitungsprüfungen)
Wir können diese geschätzte Regressionsgleichung verwenden, um die erwartete Prüfungspunktzahl für einen Studenten zu berechnen, basierend auf der Anzahl der Lernstunden und der Anzahl der von ihm abgelegten Übungsprüfungen.
Beispielsweise sollte ein Student, der drei Stunden lernt und eine Vorbereitungsprüfung ablegt, eine Note von 83,75 erhalten:
Prüfungsergebnis = 67,67 + 5,56*(3) – 0,60*(1) = 83,75
Bedenken Sie, dass wir uns möglicherweise dazu entschließen, sie zu entfernen, da die vergangenen Vorbereitungsprüfungen statistisch nicht signifikant waren (p=0,52), da sie keine Verbesserung für das Gesamtmodell bringen.
In diesem Fall könnten wir eine einfache lineare Regression durchführen und dabei nur die untersuchten Stunden als erklärende Variable verwenden.
Zusätzliche Ressourcen
Einführung in die einfache lineare Regression
Einführung in die multiple lineare Regression