Wprowadzenie do regresji głównych składowych
Jednym z najczęstszych problemów, jakie można napotkać podczas tworzenia modeli, jest współliniowość . Dzieje się tak, gdy dwie lub więcej zmiennych predykcyjnych w zbiorze danych jest silnie skorelowanych.
Kiedy tak się stanie, dany model może być w stanie dobrze dopasować zestaw danych szkoleniowych, ale prawdopodobnie będzie działał słabo na nowym zestawie danych, którego nigdy nie widział, ponieważ nadmiernie pasuje do zbioru szkoleniowego.
Jednym ze sposobów uniknięcia nadmiernego dopasowania jest użycie metody wyboru podzbioru, takiej jak:
Metody te mają na celu usunięcie nieistotnych predyktorów z modelu, tak aby w ostatecznym modelu pozostały tylko najważniejsze predyktory zdolne do przewidzenia zmienności zmiennej odpowiedzi.
Innym sposobem uniknięcia nadmiernego dopasowania jest użycie pewnego rodzaju metody regularyzacji , takiej jak:
Metody te próbują ograniczyć lub uregulować współczynniki modelu w celu zmniejszenia wariancji, a tym samym stworzyć modele zdolne do dobrego uogólniania nowych danych.
Całkowicie odmienne podejście do wielowspółliniowości znane jest jako redukcja wymiarowa .
Powszechną metodą redukcji wymiarów jest znana jako regresja głównych składowych , która działa w następujący sposób:
1. Załóżmy, że dany zbiór danych zawiera p predyktorów :
2. Oblicz Z 1 , … , Z M jako M kombinacji liniowych pierwotnych predyktorów p .
- Z m = ΣΦjm _ _
- Z 1 to liniowa kombinacja predyktorów, która wychwytuje możliwie najwięcej wariancji.
- Z2 jest następną liniową kombinacją predyktorów, która wychwytuje najwięcej wariancji, będąc ortogonalną (tzn. nieskorelowaną) z Z1 .
- Z 3 jest zatem następną liniową kombinacją predyktorów, która wychwytuje najwięcej wariancji, będąc ortogonalną do Z 2 .
- I tak dalej.
3. Zastosuj metodę najmniejszych kwadratów, aby dopasować model regresji liniowej, używając pierwszych M składowych głównych Z 1 , …, Z M jako predyktorów.
Termin redukcja wymiaru wynika z faktu, że metoda ta musi jedynie szacować współczynniki M+1 zamiast współczynników p+1, gdzie M < p.
Innymi słowy, wymiar problemu został zmniejszony z p+1 do M+1.
W wielu przypadkach, gdy w zbiorze danych występuje współliniowość, regresja głównych składowych umożliwia utworzenie modelu, który pozwala na uogólnianie na nowe dane lepiej niż konwencjonalna regresja liniowa wielokrotna .
Kroki wykonywania regresji głównych komponentów
W praktyce do przeprowadzenia regresji głównych składowych stosuje się następujące kroki:
1. Standaryzuj predyktory.
Po pierwsze, zazwyczaj standaryzujemy dane w taki sposób, że każda zmienna predykcyjna ma średnią wartość 0 i odchylenie standardowe 1. Zapobiega to wywieraniu przez jeden predyktor zbyt dużego wpływu, zwłaszcza jeśli jest mierzony w różnych jednostkach (c, to znaczy, jeśli 1 mierzy się w calach). a X2 mierzy się w jardach).
2. Oblicz główne składowe i wykonaj regresję liniową, wykorzystując główne składowe jako predyktory.
Następnie obliczamy główne składowe i stosujemy metodę najmniejszych kwadratów, aby dopasować model regresji liniowej, wykorzystując pierwsze M składowe główne Z 1 , …, Z M jako predyktory.
3. Zdecyduj, ile głównych komponentów zachować.
Następnie używamy k-krotnej walidacji krzyżowej , aby znaleźć optymalną liczbę głównych składników, które należy zachować w modelu. „Optymalna” liczba głównych składników, którą należy zachować, to zazwyczaj liczba, która daje najniższy błąd średniokwadratowy (MSE) testu.
Zalety i wady regresji głównych składowych
Regresja głównych składowych (PCR) ma następujące zalety :
- PCR zwykle działa dobrze, gdy pierwsze główne składniki są w stanie uchwycić większość zmienności predyktorów, a także związek ze zmienną odpowiedzi.
- PCR może działać dobrze nawet wtedy, gdy zmienne predykcyjne są silnie skorelowane, ponieważ wytwarza główne składniki, które są względem siebie ortogonalne (tj. nieskorelowane).
- PCR nie wymaga wyboru, które zmienne predykcyjne należy usunąć z modelu, ponieważ każdy główny składnik wykorzystuje liniową kombinację wszystkich zmiennych predykcyjnych.
- W przeciwieństwie do wielokrotnej regresji liniowej, PCR można zastosować, gdy istnieje więcej zmiennych predykcyjnych niż obserwacji.
Jednak PCR ma wadę:
- PCR nie bierze pod uwagę zmiennej odpowiedzi przy podejmowaniu decyzji, które główne składniki zachować, a które usunąć. Zamiast tego uwzględnia jedynie wielkość wariancji pomiędzy zmiennymi predykcyjnymi wychwyconymi przez główne składowe. Możliwe jest, że w niektórych przypadkach główne składniki o największych różnicach mogą nie być w stanie dobrze przewidzieć zmiennej odpowiedzi.
W praktyce dopasowujemy wiele różnych typów modeli (PCR, Ridge, Lasso, wielokrotna regresja liniowa itp.) i stosujemy k-krotną walidację krzyżową w celu zidentyfikowania modelu, który daje najniższy test MSE na nowych danych.
W przypadkach, gdy w oryginalnym zestawie danych występuje wieloliniowość (co często ma miejsce), PCR zwykle działa lepiej niż zwykła regresja metodą najmniejszych kwadratów. Dobrym pomysłem jest jednak dopasowanie kilku różnych modeli, aby można było określić, który z nich najlepiej uogólnia niewidoczne dane.
Regresja głównych komponentów w R i Pythonie
Poniższe samouczki pokazują, jak przeprowadzić regresję głównych składników w R i Pythonie:
Regresja głównych składowych w R (krok po kroku)
Regresja głównych komponentów w Pythonie (krok po kroku)