Wielowspółliniowość
W tym artykule wyjaśniono, czym jest wieloliniowość w statystyce. Dowiesz się więc, kiedy istnieje współliniowość, jakie są konsekwencje wielowspółliniowości, jak rozpoznać wielowspółliniowość i wreszcie, jak rozwiązać ten problem.
Co to jest wielowspółliniowość?
Wielokolinearność to sytuacja, która ma miejsce, gdy dwie lub więcej zmiennych objaśniających w modelu regresji ma wysoką korelację. Innymi słowy, w modelu regresji wieloliniowość występuje, gdy związek między dwiema lub większą liczbą zmiennych w modelu jest bardzo silny.
Na przykład, jeśli uruchomimy model regresji, który wiąże oczekiwaną długość życia kraju z wielkością populacji i PKB, z pewnością wystąpi wieloliniowość między wielkością populacji a PKB, ponieważ te dwie zmienne są na ogół silnie skorelowane. współzależny. Trudno będzie zatem przeanalizować wpływ każdej zmiennej na oczekiwaną długość życia.
Logicznie rzecz biorąc, zmienne w modelu zawsze będą ze sobą skorelowane; tylko w procesie idyllicznym brak korelacji występuje pomiędzy zmiennymi. Nas jednak interesuje to, że korelacja między zmiennymi jest niska, w przeciwnym razie nie moglibyśmy poznać wpływu każdej zmiennej objaśniającej na zmienną odpowiedzi.
Głównymi przyczynami wielowspółliniowości są na ogół mała wielkość próby, istnienie związku przyczynowego pomiędzy zmiennymi objaśniającymi lub mała zmienność obserwacji.
Rodzaje wielowspółliniowości
Istnieją dwa typy wielowspółliniowości:
- Dokładna wieloliniowość : gdy jedna lub więcej zmiennych jest liniową kombinacją innych zmiennych. W tym przypadku współczynnik korelacji pomiędzy zmiennymi wielowspółliniowymi wynosi 1.
- Przybliżona wielowspółliniowość : Nie ma liniowej kombinacji pomiędzy zmiennymi, ale współczynnik determinacji między dwiema lub większą liczbą zmiennych jest bardzo bliski 1, a zatem są one silnie skorelowane.
Konsekwencje wielowspółliniowości
- Wartość współczynników regresji modelu zmienia się po dodaniu skorelowanych zmiennych, co utrudnia interpretację powstałego modelu regresji.
- Zmniejsza się precyzja estymacji parametrów, przez co zwiększa się błąd standardowy współczynników regresji.
- Część zmiennych powodujących wieloliniowość jest z pewnością zbędna i dlatego nie ma potrzeby uwzględniania ich w modelu.
- Jest prawdopodobne, że wpadniesz w sytuację nadmiernego dopasowania, to znaczy, że model jest nadmiernie dopasowany i z tego powodu nie jest przydatny do prognozowania.
- Wartości p współczynników regresji stają się mniej wiarygodne. Dlatego trudniej jest określić, które zmienne uwzględnić, a które usunąć w modelu regresji.
Jak wykryć wieloliniowość
Jednym ze sposobów identyfikacji wieloliniowości jest obliczenie macierzy korelacji , ponieważ zawiera ona współczynnik korelacji pomiędzy wszystkimi zmiennymi, dzięki czemu można zaobserwować, czy para zmiennych jest silnie skorelowana.
Jednakże za pomocą macierzy korelacji można wiedzieć tylko, czy dwie zmienne są ze sobą powiązane, ale nie można wiedzieć, czy istnieje kombinacja między zestawem zmiennych. W tym celu zwykle oblicza się współczynnik inflacji wariancji.
Współczynnik inflacji wariancji (VIF) , zwany także współczynnikiem inflacji wariancji (VIF) , jest współczynnikiem statystycznym obliczanym dla każdej zmiennej objaśniającej i wskazuje na korelację innych zmiennych z daną zmienną objaśniającą. Konkretnie jego formuła wygląda następująco:
Złoto
jest współczynnikiem inflacji wariancji zmiennej iy
jest współczynnikiem determinacji modelu regresji, w którym zmienna i jest zmienną zależną, a pozostałe zmienne są zmiennymi niezależnymi.
Zatem w zależności od wartości otrzymanych czynników inflacji wariancji można stwierdzić, czy istnieje wielowspółliniowość, czy nie:
- VIF = 1 : Gdy współczynnik inflacji wariancji jest równy 1, oznacza to, że nie ma korelacji między zmienną zależną a innymi zmiennymi.
- 1 < IVF < 5 : istnieje korelacja między zmiennymi, ale jest ona umiarkowana. W zasadzie nie jest konieczne podejmowanie jakichkolwiek działań w celu skorygowania współliniowości.
- VIF > 5 : Jeżeli współczynnik inflacji wariancji jest większy niż 1, oznacza to, że wieloliniowość modelu jest wysoka i dlatego należy podjąć próbę jego rozwiązania.
W praktyce współczynniki inflacji wariancji obliczane są najczęściej przy pomocy programów komputerowych, gdyż utworzenie modelu regresji dla każdej zmiennej, a następnie ręczne znalezienie wartości współczynnika zajęłoby dużo czasu.
Prawidłowa wieloliniowość
Następujące miary mogą być przydatne w rozwiązywaniu problemów współliniowości w modelu regresji:
- Jeśli wielkość próbki jest mała, zwiększenie liczby danych może zmniejszyć przybliżoną wieloliniowość.
- Usuń wszystkie zmienne, które powodują wieloliniowość. Jeżeli zmienne są silnie skorelowane, w modelu zostanie utraconych niewiele informacji, a współliniowość zostanie zmniejszona.
- Utwórz model regresji, stosując kryterium cząstkowych najmniejszych kwadratów (PLS).
- Czasami można pozostawić model regresji bez zmian, stosując wieloliniowość. Na przykład, jeśli chcemy tylko stworzyć model do przewidywań i nie musimy go interpretować, możemy użyć równania modelu do przewidzenia wartości zmiennej zależnej przy nowej obserwacji, zakładając, że wzór wieloliniowości się powtarza w nowych obserwacjach.