Co to jest wykres rezydualny/dźwigni? (definicja – przykład)


Wykres reszt w funkcji dźwigni to rodzaj wykresu diagnostycznego , który pozwala nam zidentyfikować wpływowe obserwacje w modelu regresji.

Oto jak ten typ wykresu wygląda w statystycznym języku programowania R:

Każda obserwacja w zbiorze danych jest wyświetlana jako pojedynczy punkt na wykresie. Oś x pokazuje dźwignię każdego punktu, a oś y przedstawia standaryzowaną resztę każdego punktu.

Dźwignia odnosi się do stopnia, w jakim współczynniki modelu regresji uległyby zmianie, gdyby konkretna obserwacja została usunięta ze zbioru danych.

Obserwacje z dużą dźwignią mają silny wpływ na współczynniki modelu regresji. Jeśli usuniemy te obserwacje, współczynniki modelu zmienią się znacząco.

Standaryzowane reszty odnoszą się do standaryzowanej różnicy między przewidywaną wartością obserwacji a rzeczywistą wartością obserwacji.

Należy zauważyć, że obserwacja może mieć wysoką wartość bezwzględną dla standardowej reszty, ale niską wartość dla dźwigni.

Jak interpretować wykres wartości reszt i dźwigni

Jeśli punkt na tym wykresie znajduje się poza odległością Cooka (czerwone linie przerywane), wówczas uważa się, że ma to wpływ na obserwację.

Odwołajmy się do pokazanego wcześniej wykresu reszt w funkcji dźwigni:

W powyższym przykładzie widzimy, że obserwacja nr 10 jest najbliższa granicy odległości Cooka, ale nie wykracza poza linię przerywaną. Oznacza to , że w naszym modelu regresji nie ma punktów wpływowych .

Załóżmy jednak, że mamy następujący wykres rezydualny/dźwigni:

Widzimy, że obserwacja nr 1 w prawym górnym rogu znajduje się poza czerwonymi liniami przerywanymi. Oznacza to, że jest to punkt wpływu .

Oznacza to, że gdybyśmy usunęli tę obserwację z naszego zbioru danych i ponownie dopasowali model regresji, współczynniki modelu uległyby znacznej zmianie.

Jak radzić sobie z wpływowymi obserwacjami

Jeśli utworzysz wykres reszt w zależności od dźwigni dla modelu i zauważysz, że jedna lub więcej obserwacji zostało zidentyfikowanych jako mające wpływ, możesz zrobić kilka rzeczy:

1. Sprawdź, czy obserwacja nie jest błędem.

Przed podjęciem jakichkolwiek działań należy najpierw sprawdzić, czy istotne obserwacje nie są wynikiem błędu we wprowadzaniu danych lub innego dziwnego zdarzenia.

2. Spróbuj dopasować inny model regresji.

Wpływowe obserwacje mogą wskazywać, że określony model nie pasuje dobrze do danych. W takim przypadku możesz wypróbować model regresji wielomianowej lub model nieliniowy.

3. Usuń wpływowe komentarze.

Na koniec możesz zdecydować się po prostu na usunięcie wpływowych obserwacji, jeśli określony model wydaje się dobrze pasować do danych, z wyjątkiem jednej lub dwóch wpływowych obserwacji.

Dodatkowe zasoby

Poniższe samouczki zawierają dodatkowe informacje na temat używania reszt do oceny dopasowania modeli regresji.

Czym są reszty w statystyce?
Co to są reszty standaryzowane?
Jak interpretować wykresy diagnostyczne w R

Dodaj komentarz

Twój adres e-mail nie zostanie opublikowany. Wymagane pola są oznaczone *