Jak zidentyfikować wartości odstające w spss
Wartość odstająca to obserwacja, która jest nienormalnie odległa od innych wartości w zbiorze danych. Wartości odstające mogą być problematyczne, ponieważ mogą wpływać na wyniki analizy.
W tym samouczku wyjaśniono, jak identyfikować wartości odstające i obsługiwać je w SPSS.
Jak zidentyfikować wartości odstające w SPSS
Załóżmy, że mamy następujący zbiór danych, który pokazuje roczny dochód (w tysiącach) 15 osób:
Jednym ze sposobów sprawdzenia, czy występują wartości odstające, jest utworzenie wykresu pudełkowego dla zbioru danych. Aby to zrobić, kliknij zakładkę Analizuj , następnie Statystyki opisowe i Eksploruj :
W nowym oknie, które się pojawi, przeciągnij dochód zmienny do pola o nazwie Lista osób na utrzymaniu. Następnie kliknij Statystyki i upewnij się, że pole obok Percentyle jest zaznaczone. Następnie kliknij Kontynuuj . Następnie kliknij OK .
Po kliknięciu OK pojawi się wykres pudełkowy:
Jeśli na żadnym końcu wykresu pudełkowego nie ma kółek ani gwiazdek, oznacza to, że nie występują żadne wartości odstające.
SPSS uznaje każdą wartość danych za wartość odstającą, jeśli wykracza poza następujące zakresy:
- Trzeci kwartyl + 1,5*rozstęp międzykwartylowy
- 1. kwartyl – 1,5*rozstęp międzykwartylowy
Możemy obliczyć rozstęp międzykwartylowy, biorąc w wyniku różnicę między 75. a 25. percentylem w wierszu oznaczonym Zawiasy Tukeya :
Dla tego zbioru danych rozstęp międzykwartylowy wynosi 82 – 36 = 46 . Zatem wszelkie wartości spoza następujących zakresów zostaną uznane za wartości odstające:
- 82 + 1,5*46 = 151
- 36 – 1,5*46 = -33
Oczywiście dochód nie może być ujemny, więc dolna granica w tym przykładzie nie jest przydatna. Jednakże każdy dochód powyżej 151 byłby uważany za wartość odstającą.
Załóżmy na przykład, że największą wartością w naszym zbiorze danych jest 152. Oto wykres pudełkowy dla tego zbioru danych:
Okrąg wskazuje, że w danych występuje wartość odstająca. Liczba 15 wskazuje, która obserwacja w zbiorze danych jest wartością odstającą.
SPSS uważa również każdą wartość danych za skrajną wartość odstającą , jeśli wykracza poza następujące zakresy:
- Trzeci kwartyl + 3*rozstęp międzykwartylowy
- 1. kwartyl – 3*rozstęp międzykwartylowy
Zatem wszelkie wartości spoza poniższych zakresów zostaną w tym przykładzie uznane za skrajne wartości odstające:
- 82 + 3*46 = 220
- 36 – 3*46 = -102
Załóżmy na przykład, że największą wartością w naszym zbiorze danych jest 221. Oto wykres pudełkowy tego zbioru danych:
Gwiazdka (*) wskazuje, że w danych występuje skrajna wartość odstająca. Liczba 15 wskazuje, która obserwacja w zbiorze danych jest skrajną wartością odstającą.
Jak postępować z wartościami odstającymi
Jeśli w Twoich danych występuje wartość odstająca, masz kilka możliwości:
1. Upewnij się, że wartość odstająca nie jest wynikiem błędu we wprowadzaniu danych.
Czasami osoba po prostu wprowadza niewłaściwą wartość danych podczas zapisywania danych. Jeśli występuje wartość odstająca, najpierw sprawdź, czy wartość została wprowadzona poprawnie i czy nie jest to błąd.
2. Usuń wartość odstającą.
Jeśli wartość rzeczywiście odbiega od normy, możesz ją usunąć, jeśli będzie miała znaczący wpływ na ogólną analizę. Pamiętaj tylko, aby wspomnieć w raporcie końcowym lub analizie, że usunąłeś wartość odstającą.
3. Przypisz nową wartość wartości odstającej .
Jeśli okaże się, że wartość odstająca wynika z błędu we wprowadzaniu danych, możesz zdecydować się na przypisanie jej nowej wartości, takiej jak średnia lub mediana zbioru danych.
Dodatkowe zasoby
Jeśli pracujesz z wieloma zmiennymi jednocześnie, możesz użyć odległości Mahalanobisa do wykrycia wartości odstających.