Standardisierte und nicht standardisierte regressionskoeffizienten
Die multiple lineare Regression ist eine nützliche Methode zur Quantifizierung der Beziehung zwischen zwei oder mehr Prädiktorvariablen und einer Antwortvariablen .
Wenn wir eine multiple lineare Regression durchführen, sind die resultierenden Regressionskoeffizienten normalerweise nicht standardisiert , was bedeutet, dass die Rohdaten verwendet werden, um die am besten geeignete Linie zu finden.
Wenn jedoch Prädiktorvariablen auf völlig unterschiedlichen Skalen gemessen werden, kann es sinnvoll sein, eine multiple lineare Regression mit standardisierten Daten durchzuführen, was zu standardisierten Koeffizienten führt.
Um Ihnen das Verständnis dieser Idee zu erleichtern, gehen wir ein einfaches Beispiel durch.
Beispiel: Standardisierte und nicht standardisierte Regressionskoeffizienten
Angenommen, wir verfügen über den folgenden Datensatz mit Informationen zum Alter, der Quadratmeterzahl und dem Verkaufspreis von 12 Häusern:
Angenommen, wir führen dann eine multiple lineare Regression durch, wobei wir Alter und Quadratmeterzahl als Prädiktorvariablen und den Preis als Antwortvariable verwenden.
Hier ist das Ergebnis der Regression :
Die Regressionskoeffizienten in dieser Tabelle sind nicht standardisiert , was bedeutet, dass die Rohdaten zur Anpassung dieses Regressionsmodells verwendet wurden. Auf den ersten Blick scheint es, dass das Alter einen viel größeren Einfluss auf den Immobilienpreis hat, da sein Koeffizient in der Regressionstabelle -409,833 beträgt, verglichen mit nur 100,866 für die Prädiktorvariable Quadratmeterzahl .
Allerdings ist der Standardfehler für das Alter viel größer als für die Quadratmeterzahl, weshalb der entsprechende p-Wert für das Alter tatsächlich groß (p = 0,520) und für die Quadratmeterzahl klein (p = 0,000) ist.
Der Grund für die extremen Unterschiede in den Regressionskoeffizienten liegt in den extremen Unterschieden in den Skalen für die beiden Variablen:
- Die Werte für das Alter liegen zwischen 4 und 44 Jahren.
- Die Quadratmeterzahl liegt zwischen 1.200 und 2.800.
Angenommen, wir normalisieren stattdessen die ursprünglichen Rohdaten, indem wir jeden ursprünglichen Datenwert in einen Z-Score umwandeln:
Wenn wir dann eine multiple lineare Regression mit den standardisierten Daten durchführen, erhalten wir das folgende Regressionsergebnis:
Die Regressionskoeffizienten in dieser Tabelle sind standardisiert , was bedeutet, dass standardisierte Daten zur Anpassung an dieses Regressionsmodell verwendet wurden. Die Koeffizienten in der Tabelle sind wie folgt zu interpretieren:
- Ein Anstieg des Alters um eine Standardabweichung ist mit einem Rückgang des Hauspreises um 0,092 Standardabweichungen verbunden, vorausgesetzt, die Quadratmeterzahl bleibt konstant.
- Ein Anstieg der Quadratmeterzahl um eine Standardabweichung ist mit einem Anstieg des Hauspreises um 0,885 Standardabweichung verbunden, vorausgesetzt, das Alter bleibt konstant.
Wir können sofort erkennen, dass die Quadratmeterzahl einen viel größeren Einfluss auf die Immobilienpreise hat als das Alter. Beachten Sie außerdem, dass die p-Werte für jede Prädiktorvariable genau mit denen im vorherigen Regressionsmodell übereinstimmen.
Verwandte Themen: So berechnen Sie Z-Scores in Excel
Wann sollten standardisierte oder nicht standardisierte Regressionskoeffizienten verwendet werden?
Je nach Situation können sowohl standardisierte als auch nicht standardisierte Regressionskoeffizienten nützlich sein. Besonders:
Nicht standardisierte Regressionskoeffizienten sind nützlich, wenn Sie die Auswirkung interpretieren möchten, die eine Änderung einer Prädiktorvariablen um eine Einheit auf eine Antwortvariable hat. Im obigen Beispiel könnten wir die nicht standardisierten Regressionskoeffizienten aus der ersten Regression verwenden, um die genaue Beziehung zwischen den Prädiktorvariablen und der Antwortvariablen zu verstehen:
- Eine Erhöhung des Alters um eine Einheit war mit einem durchschnittlichen Rückgang des Hauspreises um 409 US-Dollar verbunden, vorausgesetzt, die Quadratmeterzahl blieb konstant. Es stellte sich heraus, dass dieser Koeffizient statistisch nicht signifikant war (p=0,520).
- Eine Erhöhung der Quadratmeterzahl um eine Einheit war mit einem durchschnittlichen Anstieg der Hauspreise um 100 US-Dollar verbunden, vorausgesetzt, das Alter blieb konstant. Auch dieser Koeffizient erwies sich als statistisch signifikant (p=0,000).
Standardisierte Regressionskoeffizienten sind nützlich, wenn Sie die Wirkung verschiedener Prädiktorvariablen auf eine Antwortvariable vergleichen möchten. Da jede Variable standardisiert ist, können Sie sehen, welche Variable den größten Einfluss auf die Antwortvariable hat.
Der Nachteil standardisierter Regressionskoeffizienten besteht darin, dass sie etwas schwieriger zu interpretieren sind. Beispielsweise lässt sich die Auswirkung einer Erhöhung um eine Alterseinheit auf den Immobilienpreis leichter verstehen als die Auswirkung einer Erhöhung um eine Standardabweichung auf den Immobilienpreis.
Zusätzliche Ressourcen
So lesen und interpretieren Sie eine Regressionstabelle
So interpretieren Sie Regressionskoeffizienten
So führen Sie eine multiple lineare Regression in Excel durch