Co to jest wpływowa obserwacja w statystyce?
W statystyce wpływowa obserwacja to obserwacja w zbiorze danych, która po usunięciu znacząco zmienia szacunki współczynników modelu regresji.
Najczęstszym sposobem pomiaru wpływu obserwacji jest użycie odległości Cooka , która określa ilościowo, jak bardzo zmienią się wszystkie dopasowane wartości w modelu regresji po usunięciu i- tej obserwacji.
Ogólnie rzecz biorąc, każda obserwacja z odległością Cooka większą niż 1 jest uważana za obserwację o dużej dźwigni.
Poniższy przykład pokazuje, jak obliczyć i zinterpretować odległość Cooka dla danego zbioru danych, aby wykryć potencjalnie wpływające obserwacje.
Przykład: Wykrywanie wpływowych obserwacji
Załóżmy, że mamy następujący zestaw danych zawierający 14 wartości:
Załóżmy teraz, że dopasowujemy prosty model regresji liniowej . Wynik regresji przedstawiono poniżej:
Korzystając z oprogramowania statystycznego, dla każdej obserwacji możemy obliczyć następujące wartości odległości Cooka:
Należy zauważyć, że ostatnia obserwacja ma wartość znacznie większą niż 1 dla odległości Cooka, co mówi nam, że jest to obserwacja wpływowa.
Załóżmy, że usuniemy tę wartość ze zbioru danych i dopasujemy nowy prosty model regresji liniowej. Wyniki tego modelu pokazano poniżej:
Należy zauważyć, że współczynniki regresji dla wyrazu wolnego i x zmieniły się dramatycznie. To mówi nam, że usunięcie wpływowej obserwacji ze zbioru danych całkowicie zmieniło dopasowany model regresji.
Poniższe wykresy pokazują różnicę między tymi dwoma dopasowanymi równaniami regresji:
Zwróć uwagę, jak bardzo pojedyncza wpływowa obserwacja zmienia linię regresji. Usuwając tę obserwację, byliśmy w stanie znaleźć linię regresji, która znacznie lepiej pasuje do danych.
Uwagi
Należy zauważyć, że do identyfikacji potencjalnie wpływających obserwacji należy stosować odległość Cooka. Jednak to, że obserwacja ma wpływ, nie musi koniecznie oznaczać, że należy ją usunąć ze zbioru danych.
Najpierw należy sprawdzić, czy obserwacja nie jest wynikiem błędu we wpisie danych lub innego dziwnego zdarzenia. Jeśli okaże się, że jest to wartość uzasadniona, możesz zdecydować się na potraktowanie jej w jeden z następujących sposobów:
- Usuń go ze zbioru danych.
- Zostaw to w zbiorze danych.
- Zastąp ją wartością alternatywną, taką jak średnia lub mediana.
W zależności od konkretnego scenariusza jedna z tych opcji może mieć większy sens niż inne.
Jak obliczyć dystans kucharza w praktyce
Poniższe tutoriale wyjaśniają, jak obliczyć odległość Cooka dla danego zbioru danych w Pythonie i R:
Jak obliczyć odległość Cooka w Pythonie
Jak obliczyć odległość Cooka w R