Co to są reszty standaryzowane?


Reszta to różnica między wartością obserwowaną a wartością przewidywaną w modelu regresji .

Oblicza się go w następujący sposób:

Wartość rezydualna = Wartość obserwowana – Wartość przewidywana

Jeśli wykreślimy zaobserwowane wartości i nałożymy dopasowaną linię regresji, resztą dla każdej obserwacji będzie pionowa odległość między obserwacją a linią regresji:

Przykład reszty w statystyce

Jeden z typów reszt, którego często używamy do identyfikacji wartości odstających w modelu regresji, nazywany jest resztą standaryzowaną .

Oblicza się go w następujący sposób:

r ja = mi ja / s(e ja ) = mi ja / RSE√ 1-h ii

Złoto:

  • e i : i- ta reszta
  • RSE: resztkowy błąd standardowy modelu
  • h ii : Powstanie i -tej obserwacji

W praktyce często za wartość odstającą uznajemy każdą standaryzowaną resztę, której wartość bezwzględna jest większa niż 3.

Nie musi to koniecznie oznaczać, że usuniemy te obserwacje z modelu, ale powinniśmy przynajmniej je dokładniej przestudiować, aby sprawdzić, czy nie są one wynikiem błędu we wprowadzaniu danych lub innego dziwnego zdarzenia.

Uwaga: Czasami pozostałości standaryzowane nazywane są także „pozostałościami badanymi wewnętrznie”.

Przykład: Jak obliczyć reszty standaryzowane

Załóżmy, że mamy następujący zbiór danych zawierający łącznie 12 obserwacji:

Jeśli użyjemy oprogramowania statystycznego (takiego jak R , Excel , Python , Stata itp.), aby dopasować linię regresji liniowej do tego zbioru danych, odkryjemy, że linia najlepszego dopasowania okaże się:

y = 29,63 + 0,7553x

Korzystając z tej linii, możemy obliczyć przewidywaną wartość dla każdej wartości Y w oparciu o wartość X. Na przykład przewidywana wartość pierwszej obserwacji będzie wynosić:

y = 29,63 + 0,7553*(8) = 35,67

Następnie możemy obliczyć resztę tej obserwacji w następujący sposób:

Wartość rezydualna = Wartość obserwowana – Wartość przewidywana = 41 – 35,67 = 5,33

Możemy powtórzyć ten proces, aby znaleźć resztę dla każdej obserwacji:

Jak obliczyć resztę

Możemy również użyć oprogramowania statystycznego, aby stwierdzić, że resztkowy błąd standardowy modelu wynosi 4,44 .

I chociaż wykracza to poza zakres tego samouczka, możemy użyć oprogramowania, aby znaleźć statystykę dźwigni (h ii ) dla każdej obserwacji:

Następnie możemy użyć następującego wzoru do obliczenia reszty standaryzowanej dla każdej obserwacji:

r ja = mi ja / RSE√ 1-h ii

Na przykład resztę standaryzowaną dla pierwszej obserwacji oblicza się w następujący sposób:

r ja = 5,33 / 4,44√ 1-0,27 = 1,404

Możemy powtórzyć ten proces, aby znaleźć resztę standaryzowaną dla każdej obserwacji:

Przykład obliczenia reszt standaryzowanych

Następnie możemy utworzyć szybki wykres rozrzutu wartości predykcyjnych względem reszt standaryzowanych, aby wizualnie sprawdzić, czy którakolwiek z reszt standaryzowanych przekracza próg wartości bezwzględnej wynoszący 3:

Wykres wartości predykcyjnych w funkcji reszt standaryzowanych

Z wykresu widać, że żadna ze standaryzowanych reszt nie przekracza wartości bezwzględnej 3. Zatem żadna z obserwacji nie wydaje się być wartością odstającą.

Należy zauważyć, że w niektórych przypadkach badacze uważają obserwacje, których reszty standaryzowane przekraczają wartość bezwzględną 2, za obserwacje odstające.

To od Ciebie zależy, w zależności od dziedziny, w której pracujesz i konkretnego problemu, nad którym pracujesz, czy chcesz zastosować wartość bezwzględną 2 czy 3 jako próg dla wartości odstających.

Dodatkowe zasoby

Poniższe samouczki dostarczają dodatkowych informacji na temat reszt standaryzowanych:

Czym są reszty w statystyce?
Jak obliczyć reszty standaryzowane w programie Excel
Jak obliczyć reszty standaryzowane w R
Jak obliczyć reszty standaryzowane w Pythonie

Dodaj komentarz

Twój adres e-mail nie zostanie opublikowany. Wymagane pola są oznaczone *