Homoscedastyczność
W tym artykule wyjaśniono, czym jest homoskedastyczność w statystyce. Znajdziesz więc definicję homoskedastyczności, jakie są przyczyny braku homoskedastyczności w modelu regresji i więcej, jak to naprawić.
Co to jest homoskedastyczność?
Homoscedastyczność jest cechą modelu regresji, którego błędy zmiennych objaśniających mają stałą wariancję. Oznacza to, że gdy wariancja błędu modelu regresji jest stała, model ten wykazuje homoskedastyczność, a zatem jest modelem homoskedastycznym.
Pamiętaj, że błąd (resztę) definiuje się jako różnicę między wartością rzeczywistą a wartością oszacowaną przez model regresji.
Uruchamiając model regresji, dla każdej obserwacji otrzymamy inną wartość niż w poprzednim wyrażeniu. Zatem homoskedastyczny model statystyczny to taki, w którym wariancja obliczonych błędów jest stała w trakcie obserwacji.
Ważne jest, aby model regresji wykazywał homoskedastyczność; w rzeczywistości jest to jedno z poprzednich założeń modeli regresji. Jeśli reszty nie są homoskedastyczne, lepiej jest przerobić model w inny sposób, aby uzyskać homoskedastyczność. W przeciwnym razie oszacowanie współczynników regresji będzie prawdopodobnie błędne, a błędy w testowaniu hipotez wystąpią również w przypadku przyjęcia hipotez zerowych, które w rzeczywistości powinny zostać odrzucone.
Przyczyny braku homoskedastyczności
Najczęstsze przyczyny braku homoskedastyczności modelu to:
- Gdy zakres danych jest bardzo szeroki w porównaniu do średniej. Jeśli w tej samej próbie statystycznej występują wartości bardzo duże i bardzo małe, jest prawdopodobne, że uzyskany model regresji nie jest homoskedastyczny.
- Pominięcie zmiennych w modelu regresji skutkuje także brakiem homoskedastyczności. Logicznie rzecz biorąc, jeśli odpowiednia zmienna nie zostanie uwzględniona w modelu, jej zmienność zostanie uwzględniona w resztach i niekoniecznie zostanie ustalona.
- Zmiana struktury może spowodować słabe dopasowanie modelu do zbioru danych i dlatego wariancja reszt nie jest stała.
- Gdy niektóre zmienne mają znacznie większe wartości niż pozostałe zmienne objaśniające, model może nie wykazywać homoskedastyczności. W takim przypadku zmienne można zrelatywizować, aby rozwiązać problem.
Istnieją jednak przypadki, które z natury trudno jest przedstawić jako homoskedastyczność. Na przykład, jeśli modelujemy dochód danej osoby na podstawie jej wydatków na żywność, bogatsi ludzie charakteryzują się znacznie większą zmiennością w wydatkach na żywność niż ludzie biedniejsi. Ponieważ bogaty człowiek czasami jada w drogich restauracjach, a innym razem w tanich restauracjach, w przeciwieństwie do biednego człowieka, który zawsze jada w tanich restauracjach. Dlatego trudno jest osiągnąć homoskedastyczność w modelu regresji.
Poprawianie danych w celu uzyskania homoskedastyczności
Jeżeli uzyskany model regresji nie jest homoskedastyczny, można zastosować następujące poprawki, aby osiągnąć homoskedastyczność:
- Oblicz logarytm naturalny zmiennej niezależnej. Jest to ogólnie przydatne, gdy wariancja reszt na wykresie rośnie.
- W zależności od wykresu reszt bardziej praktyczny może być inny rodzaj transformacji zmiennej niezależnej. Na przykład, jeśli wykres ma kształt paraboli, możemy obliczyć kwadrat zmiennej niezależnej i dodać tę zmienną do modelu.
- W modelu można również zastosować inne zmienne; usuwając lub dodając zmienną, można modyfikować wariancję reszt.
- Zamiast stosować kryterium najmniejszych kwadratów, można zastosować ważone kryterium najmniejszych kwadratów.
Homoscedastyczność i heteroskedastyczność
Na koniec zobaczymy, jaka jest różnica między homoskedastycznością a heteroskedastycznością, ponieważ są to dwie ważne koncepcje statystyczne modeli regresji.
Heteroscedastyczność jest cechą statystyczną, która oznacza, że reszty modelu regresji nie mają stałej wariancji, zatem zmienność błędów nie jest taka sama na całym wykresie.
Różnica między homoskedastycznością a heteroskedastycznością polega na stałości wariancji błędu. Homoskedastyczność oznacza, że wariancja błędu jest stała, natomiast heteroskedastyczność oznacza, że wariancja błędu nie jest stała.