Jak testować współliniowość w spss


Wielokolinearność w analizie regresji ma miejsce, gdy dwie lub więcej zmiennych predykcyjnych jest ze sobą silnie skorelowanych, w związku z czym nie dostarczają unikalnych lub niezależnych informacji w modelu regresji. Jeśli stopień korelacji między zmiennymi jest wystarczająco wysoki, może to powodować problemy podczas dopasowywania i interpretacji modelu regresji.

Jednym ze sposobów wykrycia współliniowości jest użycie metryki znanej jako współczynnik inflacji wariancji (VIF) , który mierzy korelację i siłę korelacji między zmiennymi predykcyjnymi w modelu regresji.

W tym samouczku wyjaśniono, jak używać VIF do wykrywania współliniowości w analizie regresji w SPSS.

Przykład: wieloliniowość w SPSS

Załóżmy, że mamy następujący zbiór danych, który pokazuje wyniki egzaminu 10 uczniów wraz z liczbą godzin spędzonych na nauce, liczbą zdanych egzaminów próbnych i ich aktualną oceną z kursu:

Chcielibyśmy przeprowadzić regresję liniową, używając wyniku jako zmiennej odpowiedzi oraz godzin , prep_exams i current_grade jako zmiennych predykcyjnych, ale chcemy się upewnić, że te trzy zmienne predykcyjne nie są silnie skorelowane.

Aby określić, czy współliniowość stanowi problem, możemy wygenerować wartości VIF dla każdej ze zmiennych predykcyjnych.

W tym celu kliknij zakładkę Analyze , następnie Regression , a następnie Linear :

W nowym oknie, które się pojawi, przeciągnij wynik do pola Zależne i przeciągnij trzy zmienne predykcyjne do pola Niezależne. Następnie kliknij Statystyka i upewnij się, że pole obok Diagnostyki kolinearności jest zaznaczone. Następnie kliknij Kontynuuj . Następnie kliknij OK .

Po kliknięciu OK pojawi się poniższa tabela przedstawiająca wartość VIF dla każdej zmiennej predykcyjnej:

VIF w SPSS

Wartości VIF dla każdej ze zmiennych predykcyjnych są następujące:

  • godziny: 1169
  • egzaminy przygotowawcze: 1403
  • bieżący_score: 1,522

Wartość VIF zaczyna się od 1 i nie ma górnej granicy. Ogólna zasada interpretacji VIF jest następująca:

  • Wartość 1 wskazuje, że nie ma korelacji pomiędzy daną zmienną predykcyjną a jakąkolwiek inną zmienną predykcyjną w modelu.
  • Wartość od 1 do 5 wskazuje na umiarkowaną korelację między daną zmienną predykcyjną a innymi zmiennymi predykcyjnymi w modelu, ale często nie jest ona na tyle poważna, aby wymagała szczególnej uwagi.
  • Wartość większa niż 5 wskazuje na potencjalnie poważną korelację pomiędzy daną zmienną predykcyjną a innymi zmiennymi predykcyjnymi w modelu. W tym przypadku szacunki współczynników i wartości p w wynikach regresji są prawdopodobnie niewiarygodne.

Widzimy, że żadna z wartości VIF dla zmiennych predykcyjnych w tym przykładzie nie jest większa niż 5, co wskazuje, że wieloliniowość nie będzie problemem w modelu regresji.

Dodaj komentarz

Twój adres e-mail nie zostanie opublikowany. Wymagane pola są oznaczone *