Jak obliczyć odległość mahalanobisa w spss
Odległość Mahalanobisa to odległość między dwoma punktami w przestrzeni wielowymiarowej. Jest często używany do wykrywania wartości odstających w analizach statystycznych obejmujących wiele zmiennych.
W tym samouczku wyjaśniono, jak obliczyć odległość Mahalanobisa w SPSS.
Przykład: Odległość Mahalanobisa w SPSS
Załóżmy, że mamy następujący zbiór danych, który wyświetla wyniki egzaminów 20 uczniów wraz z liczbą godzin spędzonych na nauce, liczbą zdanych egzaminów próbnych i ich aktualną oceną z kursu:
Możemy wykonać następujące kroki, aby obliczyć odległość Mahalanobisa dla każdej obserwacji w zbiorze danych i określić, czy istnieją wielowymiarowe wartości odstające.
Krok 1: Wybierz opcję Regresja liniowa.
Kliknij kartę Analiza , następnie Regresja , a następnie Liniowa :
Krok 2: Wybierz opcję Mahalanobis.
Przeciągnij wynik zmiennej odpowiedzi do pola Zależne. Przeciągnij pozostałe trzy zmienne predykcyjne do pola oznaczonego Niezależny(e). Następnie kliknij przycisk Zapisz . W nowym oknie, które się pojawi, upewnij się, że pole obok Mahalanobis jest zaznaczone. Następnie kliknij Kontynuuj . Następnie kliknij OK .
Po kliknięciu OK odległość Mahalanobisa dla każdej obserwacji w zbiorze danych pojawi się w nowej kolumnie zatytułowanej MAH_1 :
Widzimy, że niektóre odległości są znacznie większe niż inne. Aby określić, czy którakolwiek z odległości jest istotna statystycznie, musimy obliczyć ich wartości p.
Krok 3: Oblicz wartości p każdej odległości Mahalanobisa.
Kliknij kartę Transformacja , a następnie kliknij opcję Oblicz zmienną .
W polu Zmienna docelowa wybierz nową nazwę tworzonej zmiennej. Mówimy o „pwartości”. W polu Wyrażenie numeryczne wprowadź następujące dane:
1 – CDF.CHISQ(MAH_1, 3)
Następnie kliknij OK .
Spowoduje to utworzenie wartości p odpowiadającej wartości Chi-kwadrat z 3 stopniami swobody. Używamy 3 stopni swobody, ponieważ w naszym modelu regresji istnieją 3 zmienne predykcyjne.
Krok 4: Zinterpretuj wartości p.
Po kliknięciu OK wartość p dla każdej odległości Mahalanobisa zostanie wyświetlona w nowej kolumnie:
Domyślnie SPSS wyświetla tylko wartości p z dwoma miejscami po przecinku. Możesz zwiększyć liczbę miejsc dziesiętnych, klikając opcję Wyświetl zmienne na dole SPSS i zwiększając liczbę w kolumnie Miejsca dziesiętne :
Po powrocie do widoku Dane każda wartość p będzie wyświetlana z pięcioma miejscami po przecinku. Każda wartość p mniejsza niż 0,001 jest uważana za wartość odstającą.
Widzimy, że pierwsza obserwacja jest jedyną wartością odstającą w zbiorze danych, ponieważ ma wartość p mniejszą niż 0,001:
Jak postępować z wartościami odstającymi
Jeśli w Twoich danych występuje wartość odstająca, masz kilka możliwości:
1. Upewnij się, że wartość odstająca nie jest wynikiem błędu we wprowadzaniu danych.
Czasami osoba po prostu wprowadza niewłaściwą wartość danych podczas zapisywania danych. Jeśli występuje wartość odstająca, najpierw sprawdź, czy wartość danych została wprowadzona prawidłowo i czy nie był to błąd.
2. Usuń wartość odstającą.
Jeśli wartość rzeczywiście odbiega od normy, możesz ją usunąć, jeśli będzie miała znaczący wpływ na ogólną analizę. Pamiętaj tylko, aby wspomnieć w raporcie końcowym lub analizie, że usunąłeś wartość odstającą.