So lesen und interpretieren sie eine regressionstabelle


In der Statistik ist Regression eine Technik, mit der die Beziehung zwischen Prädiktorvariablen und einer Antwortvariablen analysiert werden kann.

Wenn Sie Software (wie R, SAS, SPSS usw.) zur Durchführung einer Regressionsanalyse verwenden, erhalten Sie als Ausgabe eine Regressionstabelle, die die Regressionsergebnisse zusammenfasst. Es ist wichtig zu wissen, wie diese Tabelle zu lesen ist, damit Sie die Ergebnisse der Regressionsanalyse verstehen können.

Dieses Tutorial zeigt ein Beispiel einer Regressionsanalyse und bietet eine detaillierte Erklärung, wie das Ergebnis einer Regressionstabelle gelesen und interpretiert wird.

Ein Beispiel für Regression

Angenommen, wir haben den folgenden Datensatz, der die Gesamtzahl der gelernten Stunden, die Gesamtzahl der abgelegten Vorbereitungsprüfungen und die Abschlussprüfungsnote für 12 verschiedene Studenten zeigt:

Um den Zusammenhang zwischen den gelernten Stunden und den absolvierten Vorbereitungsprüfungen mit der Abschlussprüfungsnote eines Studierenden zu analysieren , führen wir eine multiple lineare Regression durch, wobei wir die gelernten Stunden und die absolvierten Vorbereitungsprüfungen als Prädiktorvariablen und die Abschlussnote der Prüfung als Antwortvariable verwenden.

Wir erhalten folgendes Ergebnis:

Prüfung der Modellpassung

Der erste Abschnitt zeigt verschiedene Zahlen, die die Anpassung des Regressionsmodells messen, d. h. wie gut das Regressionsmodell in der Lage ist, den Datensatz „anzupassen“.

So interpretieren Sie die einzelnen Zahlen in diesem Abschnitt:

Mehrere Rs

Dies ist der Korrelationskoeffizient . Es misst die Stärke der linearen Beziehung zwischen den Prädiktorvariablen und der Antwortvariablen. Ein R-Vielfaches von 1 weist auf eine perfekte lineare Beziehung hin, während ein R-Vielfaches von 0 auf keine lineare Beziehung hinweist. Vielfaches R ist die Quadratwurzel von R zum Quadrat (siehe unten).

In diesem Beispiel beträgt das Vielfache R 0,72855 , was auf eine ziemlich starke lineare Beziehung zwischen den Lernstunden und Vorbereitungsprüfungen der Prädiktoren und der Abschlussprüfungsnote der Antwortvariablen hinweist.

R-Quadrat

Dieser wird oft als r2 geschrieben und ist auch als Bestimmtheitsmaß bekannt. Dies ist der Anteil der Varianz der Antwortvariablen, der durch die Prädiktorvariable erklärt werden kann.

Der R-Quadrat-Wert kann zwischen 0 und 1 liegen. Ein Wert von 0 gibt an, dass die Antwortvariable überhaupt nicht durch die Prädiktorvariable erklärt werden kann. Ein Wert von 1 gibt an, dass die Antwortvariable perfekt und fehlerfrei durch die Prädiktorvariable erklärt werden kann.

In diesem Beispiel beträgt das R-Quadrat 0,5307 , was bedeutet, dass 53,07 % der Varianz in den Abschlussprüfungsergebnissen durch die Anzahl der gelernten Stunden und die Anzahl der vergangenen Übungsprüfungen erklärt werden können.

Verwandt: Was ist ein guter R-Quadrat-Wert?

Bereinigtes R-Quadrat

Dies ist eine modifizierte Version des R-Quadrats, die basierend auf der Anzahl der Prädiktoren im Modell angepasst wurde. Es ist immer kleiner als R im Quadrat. Das angepasste R-Quadrat kann nützlich sein, um die Anpassung verschiedener Regressionsmodelle miteinander zu vergleichen.

In diesem Beispiel beträgt das angepasste R-Quadrat 0,4265.

Standardfehler der Regression

Der Standardfehler der Regression ist der durchschnittliche Abstand zwischen den beobachteten Werten und der Regressionsgeraden. In diesem Beispiel weichen die beobachteten Werte im Durchschnitt um 7,3267 Einheiten von der Regressionsgeraden ab.

Verwandte Themen: Den Standardfehler der Regression verstehen

Kommentare

Dies ist einfach die Anzahl der Beobachtungen in unserem Datensatz. In diesem Beispiel beträgt die Gesamtzahl der Beobachtungen 12 .

Testen der Gesamtsignifikanz des Regressionsmodells

Der folgende Abschnitt zeigt die Freiheitsgrade, die Quadratsumme, den Mittelwert der Quadrate, die F-Statistik und die Gesamtsignifikanz des Regressionsmodells.

So interpretieren Sie die einzelnen Zahlen in diesem Abschnitt:

Freiheitsgrade der Regression

Diese Zahl ist gleich: die Anzahl der Regressionskoeffizienten – 1. In diesem Beispiel haben wir einen Originalterm und zwei Prädiktorvariablen, also haben wir insgesamt drei Regressionskoeffizienten, was bedeutet, dass die Freiheitsgrade der Regression 3 – 1 sind = 2 .

Gesamtfreiheitsgrade

Diese Zahl ist gleich: die Anzahl der Beobachtungen – 1. In diesem Beispiel haben wir 12 Beobachtungen, also beträgt die Gesamtzahl der Freiheitsgrade 12 – 1 = 11 .

Restfreiheitsgrade

Diese Zahl ist gleich: Gesamt-DF – Regressions-DF. In diesem Beispiel betragen die Restfreiheitsgrade 11 – 2 = 9 .

Mittlere Quadrate

Die mittleren Regressionsquadrate werden durch SS-Regression/df-Regression berechnet. In diesem Beispiel beträgt die Regression MS = 546,53308 / 2 = 273,2665 .

Die mittleren mittleren Quadrate der Residuen werden anhand der Residuen-SS/Residuen-df berechnet. In diesem Beispiel ist Rest-MS = 483,1335 / 9 = 53,68151 .

F-Statistik

Die f-Statistik wird als MS-Regression/MS-Residuum berechnet. Diese Statistik gibt an, ob das Regressionsmodell eine bessere Anpassung an die Daten bietet als ein Modell, das keine unabhängigen Variablen enthält.

Im Wesentlichen wird getestet, ob das Regressionsmodell als Ganzes nützlich ist. Wenn keine der Prädiktorvariablen im Modell statistisch signifikant ist, ist die Gesamt-F-Statistik im Allgemeinen auch nicht statistisch signifikant.

In diesem Beispiel beträgt die F-Statistik 273,2665 / 53,68151 = 5,09 .

Bedeutung von F (P-Wert)

Der letzte Wert in der Tabelle ist der p-Wert, der der F-Statistik zugeordnet ist. Um festzustellen, ob das gesamte Regressionsmodell signifikant ist, können Sie den p-Wert mit einem Signifikanzniveau vergleichen. gängige Optionen sind .01, .05 und .10.

Wenn der p-Wert unter dem Signifikanzniveau liegt, gibt es genügend Belege für die Schlussfolgerung, dass das Regressionsmodell besser zu den Daten passt als das Modell ohne Prädiktorvariable. Dieses Ergebnis ist positiv, da es bedeutet, dass die Prädiktorvariablen des Modells tatsächlich die Anpassung des Modells verbessern.

In diesem Beispiel beträgt der p-Wert 0,033 und liegt damit unter dem üblichen Signifikanzniveau von 0,05. Dies weist darauf hin, dass das Regressionsmodell als Ganzes statistisch signifikant ist, d. h. das Modell passt besser zu den Daten als das Modell ohne Prädiktorvariablen.

Testen der Gesamtsignifikanz des Regressionsmodells

Im letzten Abschnitt werden die Koeffizientenschätzungen, der Standardfehler der Schätzungen, die t-Statistik, die p-Werte und die Konfidenzintervalle für jeden Term im Regressionsmodell vorgestellt.

So interpretieren Sie die einzelnen Zahlen in diesem Abschnitt:

Koeffizienten

Die Koeffizienten liefern uns die Zahlen, die wir zum Schreiben der geschätzten Regressionsgleichung benötigen:

y hat = b 0 + b 1 x 1 + b 2 x 2 .

In diesem Beispiel lautet die geschätzte Regressionsgleichung:

Abschlussprüfungsergebnis = 66,99 + 1,299 (Studienstunden) + 1,117 (Vorbereitungsprüfungen)

Jeder einzelne Koeffizient wird als durchschnittlicher Anstieg der Antwortvariablen für jeden Anstieg einer bestimmten Prädiktorvariablen um eine Einheit interpretiert, vorausgesetzt, dass alle anderen Prädiktorvariablen konstant bleiben. Beispielsweise beträgt die erwartete durchschnittliche Steigerung der Abschlussprüfungspunktzahl für jede zusätzlich gelernte Stunde 1.299 Punkte, vorausgesetzt, die Anzahl der abgelegten Vorbereitungsprüfungen bleibt konstant.

Der Abschnitt wird als die erwartete Durchschnittsnote der Abschlussprüfung für einen Studenten interpretiert, der null Stunden studiert und keine Vorbereitungsprüfungen ablegt. In diesem Beispiel würde von einem Studenten erwartet, dass er 66,99 Punkte erzielt, wenn er null Stunden lang lernt und keine Vorbereitungsprüfungen ablegt. Seien Sie vorsichtig, wenn Sie den Achsenabschnitt eines Regressionsergebnisses interpretieren, da dies nicht immer sinnvoll ist.

In manchen Fällen kann sich beispielsweise herausstellen, dass der Achsenabschnitt eine negative Zahl ist, für die es oft keine offensichtliche Interpretation gibt. Das bedeutet nicht, dass das Modell falsch ist, sondern nur, dass das Abfangen selbst nicht so interpretiert werden sollte, dass es irgendeine Bedeutung hat.

Standardfehler, t-Statistiken und p-Werte

Der Standardfehler ist ein Maß für die Unsicherheit rund um die Koeffizientenschätzung für jede Variable.

Der t-stat ist einfach der Koeffizient geteilt durch den Standardfehler. Der T-Stat für Studienstunden beträgt beispielsweise 1,299 / 0,417 = 3,117.

Die nächste Spalte zeigt den mit dem T-Stat verbundenen p-Wert. Diese Zahl sagt uns, ob eine bestimmte Antwortvariable im Modell signifikant ist. In diesem Beispiel sehen wir, dass der p-Wert für Lernstunden 0,012 und der p-Wert für Vorbereitungsprüfungen 0,304 beträgt. Dies weist darauf hin, dass die Lernstunden im Gegensatz zu Übungsprüfungen ein wichtiger Prädiktor für die Abschlussprüfungsnote sind.

Konfidenzintervall für Koeffizientenschätzungen

Die letzten beiden Spalten der Tabelle geben die Unter- und Obergrenzen eines 95 %-Konfidenzintervalls für die Koeffizientenschätzungen an.

Die Koeffizientenschätzung für Studienstunden beträgt beispielsweise 1,299, diese Schätzung ist jedoch mit einer gewissen Unsicherheit behaftet. Wir können nie sicher wissen, ob dies der genaue Koeffizient ist. Ein 95 %-Konfidenzintervall gibt uns also einen Bereich wahrscheinlicher Werte für den wahren Koeffizienten.

In diesem Fall beträgt das 95 %-Konfidenzintervall für die Studienstunden (0,356; 2,24). Beachten Sie, dass dieses Konfidenzintervall nicht die Zahl „0“ enthält, was bedeutet, dass wir völlig sicher sind, dass der wahre Wert des Studienstundenkoeffizienten ungleich Null, also eine positive Zahl, ist.

Im Gegensatz dazu beträgt das 95 %-Konfidenzintervall für die Vorbereitungsprüfungen (-1,201, 3,436). Beachten Sie, dass dieses Konfidenzintervall die Zahl „0“ enthält , was bedeutet, dass der wahre Wert des Koeffizienten der Vorbereitungsprüfungen Null sein könnte, also für die Vorhersage der Ergebnisse der Abschlussprüfung nicht von Bedeutung ist.

Zusätzliche Ressourcen

Die Nullhypothese für die lineare Regression verstehen
Den F-Test für Gesamtsignifikanz in der Regression verstehen
So melden Sie Regressionsergebnisse

Einen Kommentar hinzufügen

Deine E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind mit * markiert