Przewodnik po wielowspółliniowości i vif w regresji
Wielokolinearność w analizie regresji ma miejsce, gdy dwie lub więcej zmiennych predykcyjnych jest ze sobą silnie skorelowanych, w związku z czym nie dostarczają unikalnych lub niezależnych informacji w modelu regresji.
Jeśli stopień korelacji między zmiennymi jest wystarczająco wysoki, może to powodować problemy podczas dopasowywania i interpretacji modelu regresji.
Załóżmy na przykład, że przeprowadzasz analizę regresji przy użyciu zmiennej odpowiedzi maksymalnego skoku w pionie i następujących zmiennych predykcyjnych:
- wysokość
- rozmiar buta
- godzin spędzonych na ćwiczeniach dziennie
W tym przypadku wzrost i rozmiar buta są prawdopodobnie silnie skorelowane, ponieważ wyżsi ludzie mają zwykle większe rozmiary butów. Oznacza to, że wieloliniowość prawdopodobnie będzie problemem w tej regresji.
W tym poradniku wyjaśniono, dlaczego współliniowość stanowi problem, jak ją wykryć i jak ją naprawić.
Dlaczego wielowspółliniowość jest problemem
Jednym z głównych celów analizy regresji jest wyizolowanie związku pomiędzy każdą zmienną predykcyjną a zmienną odpowiedzi.
W szczególności, gdy przeprowadzamy analizę regresji, interpretujemy każdy współczynnik regresji jako średnią zmianę zmiennej odpowiedzi, zakładając, że wszystkie pozostałe zmienne predykcyjne w modelu pozostają stałe.
Oznacza to, że zakładamy, że jesteśmy w stanie zmieniać wartości danej zmiennej predykcyjnej bez zmiany wartości innych zmiennych predykcyjnych.
Jednakże, gdy dwie lub więcej zmiennych predykcyjnych jest silnie skorelowanych, zmiana jednej zmiennej bez zmiany drugiej staje się trudna.
Utrudnia to modelowi regresji niezależne oszacowanie związku pomiędzy każdą zmienną predykcyjną a zmienną odpowiedzi, ponieważ zmienne predykcyjne mają tendencję do zmiany się jednocześnie.
Ogólnie rzecz biorąc, wielowspółliniowość stwarza dwa rodzaje problemów:
- Oszacowania współczynników modelu (a nawet znaki współczynników) mogą znacznie się zmieniać w zależności od innych zmiennych predykcyjnych uwzględnionych w modelu.
- Precyzja oszacowań współczynników jest zmniejszona, przez co wartości p są niewiarygodne. Utrudnia to określenie, które zmienne predykcyjne są rzeczywiście istotne statystycznie.
Jak wykryć wieloliniowość
Najczęstszym sposobem wykrywania wieloliniowości jest użycie współczynnika inflacji wariancji (VIF) , który mierzy korelację i siłę korelacji pomiędzy zmiennymi predykcyjnymi w modelu regresji.
Korzystanie ze współczynnika inflacji wariancji (VIF)
Większość programów statystycznych ma możliwość obliczenia VIF dla modelu regresji. Wartość VIF zaczyna się od 1 i nie ma górnej granicy. Ogólna zasada interpretacji VIF jest następująca:
- Wartość 1 wskazuje, że nie ma korelacji pomiędzy daną zmienną predykcyjną a jakąkolwiek inną zmienną predykcyjną w modelu.
- Wartość od 1 do 5 wskazuje na umiarkowaną korelację między daną zmienną predykcyjną a innymi zmiennymi predykcyjnymi w modelu, ale często nie jest ona na tyle poważna, aby wymagała szczególnej uwagi.
- Wartość większa niż 5 wskazuje na potencjalnie poważną korelację pomiędzy daną zmienną predykcyjną a innymi zmiennymi predykcyjnymi w modelu. W tym przypadku szacunki współczynników i wartości p w wynikach regresji są prawdopodobnie niewiarygodne.
Załóżmy na przykład, że przeprowadzamy analizę regresji przy użyciu zmiennych predykcyjnych wysokość , rozmiar buta i godziny spędzone na treningach dziennie, aby przewidzieć maksymalny skok pionowy koszykarzy i otrzymamy następujący wynik:
W ostatniej kolumnie widzimy, że wartości VIF dla wzrostu i rozmiaru buta są większe niż 5. Oznacza to, że prawdopodobnie cierpią one na wieloliniowość i że ich szacunki współczynników i wartości p są prawdopodobnie niewiarygodne.
Jeśli spojrzymy na szacunkowy współczynnik rozmiaru buta, model mówi nam, że dla każdej dodatkowej jednostki wzrostu rozmiaru buta średni wzrost maksymalnego skoku w pionie wynosi -0,67498 cala, przy założeniu, że wzrost i liczba godzin ćwiczeń pozostają stałe.
Nie wydaje się to mieć sensu, biorąc pod uwagę, że oczekiwalibyśmy, że gracze z większymi butami będą wyżsi, a co za tym idzie, będą mieli większy maksymalny skok w pionie.
Jest to klasyczny przykład wieloliniowości, który sprawia, że szacunki współczynników wydają się nieco naciągane i nieintuicyjne.
Jak rozwiązać wielowspółliniowość
Jeśli wykryjesz wielowspółliniowość, następnym krokiem będzie podjęcie decyzji, czy należy ją w jakiś sposób rozwiązać. W zależności od celu analizy regresji rozwiązanie współliniowości może nie być konieczne.
Wiedzieć:
1. Jeśli występuje tylko umiarkowana współliniowość, prawdopodobnie nie będziesz musiał jej w żaden sposób rozwiązywać.
2. Wielokolinearność wpływa tylko na zmienne predykcyjne, które są ze sobą skorelowane. Jeśli interesuje Cię zmienna predykcyjna w modelu, która nie cierpi na wielowspółliniowość, wówczas wielowspółliniowość nie stanowi problemu.
3. Wielowspółliniowość wpływa na szacunki współczynników i wartości p, ale nie wpływa na przewidywania ani statystyki dobroci dopasowania. Oznacza to, że jeśli głównym celem regresji jest tworzenie prognoz i nie interesuje Cię zrozumienie dokładnego związku między zmiennymi predykcyjnymi a zmienną odpowiedzi, wówczas nie ma potrzeby rozwiązywania współliniowości.
Jeśli stwierdzisz, że musisz skorygować współliniowość, niektóre typowe rozwiązania obejmują:
1. Usuń jedną lub więcej wysoce skorelowanych zmiennych. W większości przypadków jest to najszybsze rozwiązanie i często akceptowalne, ponieważ usuwane zmienne i tak są zbędne i dodają niewiele unikalnych lub niezależnych informacji do modelu.
2. Liniowo łączy w jakiś sposób zmienne predykcyjne, na przykład dodając je lub odejmując. W ten sposób można utworzyć nową zmienną obejmującą informacje z obu zmiennych i nie będzie już występował problem współliniowości.
3. Wykonaj analizę zaprojektowaną w celu uwzględnienia silnie skorelowanych zmiennych, taką jak analiza głównych składowych lub regresja metodą cząstkowych najmniejszych kwadratów (PLS) . Techniki te są specjalnie zaprojektowane do obsługi wysoce skorelowanych zmiennych predykcyjnych.