Heteroskedastizität in der regressionsanalyse verstehen
In der Regressionsanalyse bezieht sich Heteroskedastizität (manchmal auch Heteroskedastizität geschrieben) auf die ungleiche Streuung von Residuen oder Fehlertermen. Genauer gesagt ist dies der Fall, wenn sich die Verteilung der Residuen über den Messwertbereich systematisch ändert.
Heteroskedastizität ist ein Problem, da bei der gewöhnlichen Kleinste-Quadrate-Regression (OLS) davon ausgegangen wird, dass die Residuen aus einer Population stammen, die Homoskedastizität , also konstante Varianz, aufweist.
Wenn in einer Regressionsanalyse Heteroskedastizität vorliegt, werden die Ergebnisse der Analyse schwer zu glauben. Insbesondere erhöht Heteroskedastizität die Varianz der Regressionskoeffizientenschätzungen, das Regressionsmodell berücksichtigt dies jedoch nicht.
Dies macht es viel wahrscheinlicher, dass ein Regressionsmodell behauptet, ein Term im Modell sei statistisch signifikant, obwohl dies in Wirklichkeit nicht der Fall ist.
In diesem Tutorial wird erläutert, wie man Heteroskedastizität erkennt, welche Ursachen Heteroskedastizität hat und wie das Problem der Heteroskedastizität gelöst werden kann.
So erkennen Sie Heteroskedastizität
Der einfachste Weg, Heteroskedastizität zu erkennen, ist die Verwendung eines angepassten Wert-/Residuendiagramms .
Sobald Sie eine Regressionslinie an einen Datensatz angepasst haben, können Sie ein Streudiagramm erstellen, das die angepassten Werte des Modells im Vergleich zu den Residuen dieser angepassten Werte zeigt.
Das Streudiagramm unten zeigt ein typisches Diagramm des angepassten Werts gegenüber dem Residuum, in dem Heteroskedastizität vorhanden ist.
Beachten Sie, wie sich die Residuen mit zunehmenden angepassten Werten immer weiter ausbreiten. Diese „Kegelform“ ist ein verräterisches Zeichen für Heteroskedastizität.
Was sind die Ursachen der Heteroskedastizität?
Heteroskedastizität tritt natürlicherweise in Datensätzen auf, in denen es eine große Bandbreite beobachteter Datenwerte gibt. Zum Beispiel:
- Betrachten Sie einen Datensatz, der die jährlichen Einnahmen und Ausgaben von 100.000 Menschen in den Vereinigten Staaten umfasst. Für Menschen mit geringerem Einkommen wird die Variabilität der entsprechenden Ausgaben geringer sein, da diese Menschen wahrscheinlich nur genug Geld haben, um das Nötigste zu bezahlen. Bei Personen mit höherem Einkommen wird es größere Schwankungen bei den entsprechenden Ausgaben geben, da diese Personen mehr Geld ausgeben können, wenn sie dies wünschen. Manche Menschen mit höherem Einkommen entscheiden sich dafür, den Großteil ihres Einkommens auszugeben, während andere sich dafür entscheiden, sparsam zu sein und nur einen Teil auszugeben. Daher wird die Ausgabenvariabilität bei diesen Personen mit höherem Einkommen von Natur aus höher sein.
- Betrachten Sie einen Datensatz, der die Bevölkerung und die Anzahl der Floristen in 1.000 verschiedenen Städten in den Vereinigten Staaten umfasst. In dünn besiedelten Städten kann es üblich sein, dass nur ein oder zwei Floristen vor Ort sind. In dichter besiedelten Städten schwankt die Zahl der Floristen jedoch deutlich stärker. In diesen Städten kann es zwischen 10 und 100 Geschäfte geben. Das heißt, wenn wir eine Regressionsanalyse erstellen und die Bevölkerung zur Vorhersage der Anzahl der Floristen verwenden, wird es zwangsläufig zu einer größeren Variabilität der Residuen für bevölkerungsreichere Städte kommen.
Einige Datensätze sind einfach anfälliger für Heteroskedastizität als andere.
So beheben Sie Heteroskedastizität
Es gibt drei gängige Methoden zur Korrektur von Heteroskedastizität:
1. Transformieren Sie die abhängige Variable
Eine Möglichkeit zur Korrektur der Heteroskedastizität besteht darin, die abhängige Variable auf irgendeine Weise zu transformieren. Eine übliche Transformation besteht darin, einfach den Logarithmus der abhängigen Variablen zu verwenden.
Wenn wir beispielsweise die Bevölkerungsgröße (unabhängige Variable) verwenden, um die Anzahl der Floristen in einer Stadt vorherzusagen (abhängige Variable), können wir stattdessen versuchen, die Bevölkerungsgröße zu verwenden, um den Logarithmus der Anzahl der Floristen in einer Stadt vorherzusagen.
Die Verwendung des Protokolls der abhängigen Variablen anstelle der ursprünglichen abhängigen Variablen führt häufig dazu, dass die Heteroskedastizität verschwindet.
2. Definieren Sie die abhängige Variable neu
Eine andere Möglichkeit, Heteroskedastizität zu korrigieren, besteht darin, die abhängige Variable neu zu definieren. Eine übliche Methode hierfür ist die Verwendung einer Rate für die abhängige Variable anstelle des Rohwerts.
Anstatt beispielsweise die Bevölkerungsgröße zu verwenden, um die Anzahl der Floristen in einer Stadt vorherzusagen, können wir die Bevölkerungsgröße verwenden, um die Anzahl der Floristen pro Kopf vorherzusagen.
In den meisten Fällen verringert sich dadurch die Variabilität, die natürlicherweise in größeren Populationen auftritt, da wir die Anzahl der Floristen pro Person messen und nicht die Anzahl der Floristen selbst.
3. Verwenden Sie eine gewichtete Regression
Eine andere Möglichkeit zur Korrektur der Heteroskedastizität ist die Verwendung einer gewichteten Regression. Diese Art der Regression weist jedem Datenpunkt basierend auf der Varianz seines angepassten Werts eine Gewichtung zu.
Im Wesentlichen werden dadurch Datenpunkte mit höheren Varianzen niedrig gewichtet, wodurch ihre Restquadrate reduziert werden. Durch die Verwendung geeigneter Gewichte kann das Problem der Heteroskedastizität beseitigt werden.
Abschluss
Heteroskedastizität ist ein recht häufiges Problem bei der Regressionsanalyse, da viele Datensätze von Natur aus einer nicht konstanten Varianz unterliegen.
Durch die Verwendung eines Diagramms mit angepassten Werten im Vergleich zu einem Residuendiagramm kann es jedoch recht einfach sein, Heteroskedastizität zu erkennen.
Und durch die Transformation der abhängigen Variablen, die Neudefinition der abhängigen Variablen oder die Verwendung einer gewichteten Regression kann das Problem der Heteroskedastizität oft beseitigt werden.