So bestimmen sie signifikante variablen in regressionsmodellen


Eine der Hauptfragen, die Sie sich nach der Anpassung eines multiplen linearen Regressionsmodells stellen werden, lautet: Welche Variablen sind signifikant?

Es gibt zwei Methoden, die Sie nicht verwenden sollten , um die Bedeutung einer Variablen zu bestimmen:

1. Der Wert der Regressionskoeffizienten

Ein Regressionskoeffizient für eine bestimmte Prädiktorvariable gibt die durchschnittliche Änderung der Antwortvariablen an, die mit einem Anstieg dieser Prädiktorvariablen um eine Einheit verbunden ist.

Allerdings wird jede Prädiktorvariable in einem Modell normalerweise auf einer anderen Skala gemessen. Es macht daher keinen Sinn, die absoluten Werte der Regressionskoeffizienten zu vergleichen, um festzustellen, welche Variablen am wichtigsten sind.

2. Die p-Werte der Regressionskoeffizienten

Die p-Werte der Regressionskoeffizienten können Ihnen sagen, ob eine bestimmte Prädiktorvariable einen statistisch signifikanten Zusammenhang mit der Antwortvariablen hat, sie können Ihnen jedoch nicht sagen, ob eine bestimmte Prädiktorvariable in der realen Welt praktisch signifikant ist.

P-Werte können auch aufgrund einer großen Stichprobengröße oder einer geringen Variabilität niedrig sein, was uns nicht wirklich sagt, ob eine bestimmte Prädiktorvariable in der Praxis sinnvoll ist oder nicht.

Es gibt jedoch zwei Methoden, die Sie verwenden sollten , um die Bedeutung von Variablen zu bestimmen:

1. Standardisierte Regressionskoeffizienten

Wenn wir eine multiple lineare Regression durchführen, sind die resultierenden Regressionskoeffizienten in der Modellausgabe normalerweise nicht standardisiert , was bedeutet, dass die Rohdaten verwendet werden, um die am besten geeignete Linie zu finden.

Es ist jedoch möglich, jede Prädiktorvariable und die Antwortvariable zu standardisieren (indem der Mittelwert jeder Variablen von den ursprünglichen Werten subtrahiert und dann durch die Standardabweichung der Variablen dividiert wird) und dann eine Regression durchzuführen, die Folgendes ergibt: standardisierte Regressionskoeffizienten .

Durch die Standardisierung jeder Variablen im Modell wird jede Variable auf derselben Skala gemessen. Daher ist es sinnvoll, die absoluten Werte der Regressionskoeffizienten in den Ergebnissen zu vergleichen, um zu verstehen, welche Variablen den größten Einfluss auf die Antwortvariable haben.

2. Fachkompetenz

Obwohl p-Werte Aufschluss darüber geben können, ob zwischen einer bestimmten Prädiktorvariablen und der Antwortvariablen ein statistisch signifikanter Effekt besteht, sind Fachkenntnisse erforderlich, um zu bestätigen, ob eine Prädiktorvariable tatsächlich relevant ist und tatsächlich in ein Modell einbezogen werden sollte.

Das folgende Beispiel zeigt, wie man in der Praxis signifikante Variablen in einem Regressionsmodell ermittelt.

Beispiel: So ermitteln Sie signifikante Variablen in einem Regressionsmodell

Angenommen, wir verfügen über den folgenden Datensatz mit Informationen zum Alter, der Quadratmeterzahl und dem Verkaufspreis von 12 Häusern:

Angenommen, wir führen dann eine multiple lineare Regression durch, wobei wir Alter und Quadratmeterzahl als Prädiktorvariablen und den Preis als Antwortvariable verwenden.

Wir erhalten folgendes Ergebnis:

Beispiel für nicht standardisierte Regressionskoeffizienten

Die Regressionskoeffizienten in dieser Tabelle sind nicht standardisiert , was bedeutet, dass die Rohdaten zur Anpassung dieses Regressionsmodells verwendet wurden.

Auf den ersten Blick scheint es, dass das Alter einen viel größeren Einfluss auf den Immobilienpreis hat, da sein Koeffizient in der Regressionstabelle -409,833 beträgt, verglichen mit nur 100,866 für die Prädiktorvariable Quadratmeterzahl .

Allerdings ist der Standardfehler für das Alter viel größer als für die Quadratmeterzahl, weshalb der entsprechende p-Wert für das Alter tatsächlich groß (p = 0,520) und für die Quadratmeterzahl klein (p = 0,000) ist.

Der Grund für die extremen Unterschiede in den Regressionskoeffizienten liegt in den extremen Unterschieden in den Skalen für die beiden Variablen:

  • Die Werte für das Alter liegen zwischen 4 und 44 Jahren.
  • Die Quadratmeterzahl liegt zwischen 1.200 und 2.800.

Angenommen, wir normalisieren stattdessen die Rohdaten:

Daten in Excel standardisieren

Wenn wir dann eine multiple lineare Regression mit den standardisierten Daten durchführen, erhalten wir das folgende Regressionsergebnis:

Standardisierte Regressionskoeffizienten

Die Regressionskoeffizienten in dieser Tabelle sind standardisiert , was bedeutet, dass standardisierte Daten zur Anpassung an dieses Regressionsmodell verwendet wurden.

Die Koeffizienten in der Tabelle sind wie folgt zu interpretieren:

  • Ein Anstieg des Alters um eine Standardabweichung ist mit einem Rückgang des Hauspreises um 0,092 Standardabweichungen verbunden, vorausgesetzt, die Quadratmeterzahl bleibt konstant.
  • Ein Anstieg der Quadratmeterzahl um eine Standardabweichung ist mit einem Anstieg des Hauspreises um 0,885 Standardabweichung verbunden, vorausgesetzt, das Alter bleibt konstant.

Wir können jetzt sehen, dass die Quadratmeterzahl einen viel größeren Einfluss auf die Immobilienpreise hat als das Alter.

Hinweis : Die p-Werte für jede Prädiktorvariable sind genau die gleichen wie im vorherigen Regressionsmodell.

Bei der Entscheidung, welches endgültige Modell wir verwenden möchten, wissen wir jetzt, dass die Quadratmeterzahl für die Vorhersage des Preises eines Hauses viel wichtiger ist als sein Alter .

Letztendlich müssen wir unsere Fachkenntnisse nutzen, um auf der Grundlage des vorhandenen Wissens über Wohnraum- und Immobilienpreise zu bestimmen, welche Variablen in das endgültige Modell einbezogen werden sollen.

Zusätzliche Ressourcen

Die folgenden Tutorials bieten zusätzliche Informationen zu Regressionsmodellen:

So lesen und interpretieren Sie eine Regressionstabelle
So interpretieren Sie Regressionskoeffizienten
So interpretieren Sie P-Werte in der linearen Regression

Einen Kommentar hinzufügen

Deine E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind mit * markiert