Jak interpretować skalę i wykres lokalizacji: z przykładami


Skalowany wykres lokalizacji to rodzaj wykresu, który wyświetla dopasowane wartości modelu regresji wzdłuż osi x i pierwiastek kwadratowy reszt standaryzowanych wzdłuż osi y.

Skalowany wykres lokalizacji

Patrząc na ten wykres, sprawdzamy dwie rzeczy:

1. Sprawdź, czy czerwona linia na wykresie jest w przybliżeniu pozioma. Jeżeli tak jest, to założenie o homoskedastyczności jest prawdopodobnie spełnione dla danego modelu regresji. Oznacza to, że rozkład reszt jest w przybliżeniu równy dla wszystkich dopasowanych wartości.

2. Sprawdź, czy nie ma wyraźnego trendu wśród reszt. Innymi słowy, reszty powinny być losowo rozrzucone wokół czerwonej linii z w przybliżeniu równą zmiennością dla wszystkich dopasowanych wartości.

Wykres skali i lokalizacji w R

Możemy użyć poniższego kodu, aby dopasować prosty model regresji liniowej w języku R i utworzyć wykres skali i lokalizacji dla wynikowego modelu:

 #fit simple linear regression model
model <- lm(Ozone ~ Temp, data = airquality)

#produce scale-location plot
plot(model)

Skaluj wykres lokalizacji w R

Na wykresie skali i położenia tego modelu regresji możemy zaobserwować dwie następujące rzeczy.

1. Czerwona linia jest w przybliżeniu pozioma na wykresie. Jeżeli tak jest, to dla danego modelu regresji założenie o homoskedastyczności jest spełnione. Oznacza to, że rozkład reszt jest w przybliżeniu równy dla wszystkich dopasowanych wartości.

2. Sprawdź, czy nie ma wyraźnego trendu wśród reszt. Innymi słowy, reszty powinny być losowo rozrzucone wokół czerwonej linii z w przybliżeniu równą zmiennością dla wszystkich dopasowanych wartości.

Uwagi techniczne

Na wykresie zaznaczono trzy obserwacje ze zbioru danych o najwyższych resztach standaryzowanych.

Widzimy, że obserwacje w wierszach 30, 62 i 117 mają najwyższe reszty standaryzowane.

Nie musi to koniecznie oznaczać, że te obserwacje są wartościami odstającymi, ale warto przyjrzeć się oryginalnym danym, aby bliżej przyjrzeć się tym obserwacjom.

Chociaż widzimy, że czerwona linia jest w przybliżeniu pozioma na wykresie lokalizacji skali, służy to jedynie jako wizualny sposób sprawdzenia, czy spełnione jest założenie homoskedastyczności.

Formalnym testem statystycznym, za pomocą którego możemy sprawdzić, czy spełnione jest założenie homoskedastyczności, jest test Breuscha-Pagana .

Test Breuscha-Pagana w R

Poniższy kod pokazuje, jak używać funkcji bptest() pakietu lmtest do wykonania testu Breuscha-Pagana w R:

 #load lmtest package
library(lmtest)

#perform Breusch-Pagan Test
bptest(model)

	studentized Breusch-Pagan test

data: model
BP = 1.4798, df = 1, p-value = 0.2238

Test Breuscha-Pagana wykorzystuje następujące hipotezy zerowe i alternatywne:

  • Hipoteza zerowa (H 0 ): reszty są homoskedastyczne (tzn. równomiernie rozłożone)
  • Hipoteza alternatywna ( HA ): reszty są heteroskedastyczne (tj. nierównomiernie rozłożone)

Z wyniku widzimy, że wartość p testu wynosi 0,2238 . Ponieważ ta wartość p jest nie mniejsza niż 0,05, nie możemy odrzucić hipotezy zerowej. Nie mamy wystarczających dowodów, aby twierdzić, że heteroskedastyczność jest obecna w modelu regresji.

Wynik ten odpowiada naszej wizualnej kontroli czerwonej linii na wykresie lokalizacji skali.

Dodatkowe zasoby

Zrozumienie heteroskedastyczności w analizie regresji
Jak utworzyć wykres rezydualny w R
Jak wykonać test Breuscha-Pagana w R

Dodaj komentarz

Twój adres e-mail nie zostanie opublikowany. Wymagane pola są oznaczone *