Zrozumienie heteroskedastyczności w analizie regresji


W analizie regresji heteroskedastyczność (czasami pisana jako heteroskedastyczność) odnosi się do nierównego rozproszenia reszt lub składników błędów. Dokładniej rzecz biorąc, ma to miejsce w przypadku systematycznej zmiany rozkładu reszt w zakresie mierzonych wartości.

Heteroskedastyczność stanowi problem, ponieważ zwykła regresja metodą najmniejszych kwadratów (OLS) zakłada, że reszty pochodzą z populacji o homoskedastyczności , co oznacza stałą wariancję.

Kiedy w analizie regresji występuje heteroskedastyczność, trudno uwierzyć w wyniki analizy. W szczególności heteroskedastyczność zwiększa wariancję szacunków współczynnika regresji, ale model regresji tego nie uwzględnia.

To sprawia, że znacznie bardziej prawdopodobne jest, że model regresji będzie twierdził, że składnik modelu jest istotny statystycznie, podczas gdy w rzeczywistości tak nie jest.

W tym samouczku wyjaśniono, jak wykryć heteroskedastyczność, przyczyny heteroskedastyczności i potencjalne sposoby rozwiązania problemu heteroskedastyczności.

Jak wykryć heteroskedastyczność

Najprostszym sposobem wykrycia heteroskedastyczności jest użycie dopasowanej wartości/wykresu reszt .

Po dopasowaniu linii regresji do zbioru danych można utworzyć wykres rozrzutu przedstawiający dopasowane wartości modelu w porównaniu z resztami tych dopasowanych wartości.

Poniższy wykres rozrzutu przedstawia typowy wykres dopasowanej wartości w funkcji reszty, w której występuje heteroskedastyczność.

Zwróć uwagę, jak reszty rozprzestrzeniają się coraz bardziej wraz ze wzrostem dopasowanych wartości. Ten kształt „stożka” jest charakterystycznym znakiem heteroskedastyczności.

Jakie są przyczyny heteroskedastyczności?

Heteroscedastyczność występuje naturalnie w zbiorach danych, w których występuje szeroki zakres obserwowanych wartości danych. Na przykład:

  • Rozważmy zestaw danych obejmujący roczne dochody i wydatki 100 000 osób w Stanach Zjednoczonych. W przypadku osób o niższych dochodach zmienność odpowiednich wydatków będzie mniejsza, ponieważ osoby te prawdopodobnie będą miały dość pieniędzy jedynie na opłacenie artykułów pierwszej potrzeby. W przypadku osób o wyższych dochodach będzie większa zmienność odpowiednich wydatków, ponieważ osoby te będą miały więcej pieniędzy do wydania, jeśli zechcą. Niektóre osoby o wyższych dochodach wybiorą wydawanie większości swoich dochodów, podczas gdy inne będą oszczędne i wydadzą tylko część. Dlatego też zmienność wydatków wśród osób o wyższych dochodach będzie z natury większa.
  • Rozważmy zbiór danych obejmujący populacje i liczbę kwiaciarni w 1000 różnych miastach w Stanach Zjednoczonych. W słabo zaludnionych miastach często zdarza się, że jest obecna tylko jedna lub dwóch kwiaciarni. Jednak w bardziej zaludnionych miastach liczba kwiaciarni będzie znacznie bardziej zmienna. W miastach tych może znajdować się od 10 do 100 sklepów. Oznacza to, że gdy utworzymy analizę regresji i wykorzystamy populację do przewidywania liczby kwiaciarni, z natury rzeczy będzie większa zmienność reszt w przypadku bardziej zaludnionych miast.

Niektóre zbiory danych są po prostu bardziej podatne na heteroskedastyczność niż inne.

Jak naprawić heteroskedastyczność

Istnieją trzy typowe sposoby korygowania heteroskedastyczności:

1. Przekształć zmienną zależną

Jednym ze sposobów skorygowania heteroskedastyczności jest przekształcenie zmiennej zależnej w jakiś sposób. Typową transformacją jest po prostu pobranie logu zmiennej zależnej.

Na przykład, jeśli użyjemy wielkości populacji (zmienna niezależna) do przewidywania liczby kwiaciarni w mieście (zmienna zależna), możemy zamiast tego spróbować użyć wielkości populacji do przewidzenia logarytmu liczby kwiaciarni w mieście.

Używanie logu zmiennej zależnej zamiast oryginalnej zmiennej zależnej często powoduje zniknięcie heteroskedastyczności.

2. Zdefiniuj na nowo zmienną zależną

Innym sposobem skorygowania heteroskedastyczności jest przedefiniowanie zmiennej zależnej. Powszechnym sposobem na osiągnięcie tego jest użycie stawki dla zmiennej zależnej, a nie surowej wartości.

Na przykład zamiast używać wielkości populacji do przewidywania liczby kwiaciarni w mieście, możemy użyć wielkości populacji do przewidywania liczby kwiaciarni na mieszkańca.

W większości przypadków zmniejsza to zmienność, która naturalnie występuje w większych populacjach, ponieważ mierzymy liczbę kwiaciarni na osobę, a nie samą liczbę kwiaciarni.

3. Zastosuj regresję ważoną

Innym sposobem skorygowania heteroskedastyczności jest zastosowanie regresji ważonej. Ten typ regresji przypisuje wagę każdemu punktowi danych na podstawie wariancji jego dopasowanej wartości.

Zasadniczo nadaje to niskie wagi punktom danych o większych wariancjach, zmniejszając ich kwadraty resztowe. Zastosowanie odpowiednich wag może wyeliminować problem heteroskedastyczności.

Wniosek

Heteroscedastyczność jest dość powszechnym problemem w analizie regresji, ponieważ wiele zbiorów danych z natury podlega niestałej wariancji.

Jednakże, stosując wykres wartości dopasowanych w porównaniu z wykresem reszt , dość łatwo można wykryć heteroskedastyczność.

Przekształcając zmienną zależną, redefiniując zmienną zależną lub stosując regresję ważoną, często można wyeliminować problem heteroskedastyczności.

Dodaj komentarz

Twój adres e-mail nie zostanie opublikowany. Wymagane pola są oznaczone *