Wprowadzenie do częściowych najmniejszych kwadratów
Jednym z najczęstszych problemów, jakie można napotkać w uczeniu maszynowym, jest wieloliniowość . Dzieje się tak, gdy dwie lub więcej zmiennych predykcyjnych w zbiorze danych jest silnie skorelowanych.
Kiedy tak się stanie, model może być w stanie dobrze dopasować zbiór danych uczących, ale może działać słabo na nowym zbiorze danych, którego nigdy nie widział, ponieważ nadmiernie pasuje do zbioru danych uczących. zestaw treningowy.
Jednym ze sposobów obejścia problemu wielowspółliniowości jest zastosowanie regresji głównych składowych , która oblicza M kombinacji liniowych (zwanych „składnikami głównymi”) oryginalnych zmiennych predykcyjnych p , a następnie wykorzystuje metodę najmniejszych kwadratów w celu dopasowania modelu regresji liniowej przy użyciu zasady komponenty jako predyktory.
Wadą regresji głównych składowych (PCR) jest to, że nie bierze ona pod uwagę zmiennej odpowiedzi przy obliczaniu głównych składowych.
Zamiast tego uwzględnia jedynie wielkość wariancji pomiędzy zmiennymi predykcyjnymi wychwyconymi przez główne składowe. Z tego powodu możliwe jest, że w niektórych przypadkach główne składniki o największych odchyleniach mogą nie być w stanie dobrze przewidzieć zmiennej odpowiedzi.
Technika związana z PCR znana jest jako metoda cząstkowych najmniejszych kwadratów . Podobnie do PCR, metoda częściowych najmniejszych kwadratów oblicza M kombinacji liniowych (zwanych „składnikami PLS”) oryginalnych zmiennych predykcyjnych p i wykorzystuje metodę najmniejszych kwadratów w celu dopasowania modelu regresji liniowej wykorzystującej komponenty PLS jako predyktory.
Jednak w przeciwieństwie do PCR, metoda częściowych najmniejszych kwadratów próbuje znaleźć kombinacje liniowe, które wyjaśniają zmienność zarówno zmiennej odpowiedzi, jak i zmiennych predykcyjnych.
Kroki wykonywania częściowych najmniejszych kwadratów
W praktyce do wykonania częściowych najmniejszych kwadratów stosuje się następujące kroki.
1. Standaryzuj dane w taki sposób, aby wszystkie zmienne predykcyjne i zmienna odpowiedzi miały średnią 0 i odchylenie standardowe 1. Dzięki temu każda zmienna jest mierzona na tej samej skali.
2. Oblicz Z 1 , … , Z M jako M kombinacji liniowych pierwotnych predyktorów p .
- Z m = ΣΦjm _ _
- Aby obliczyć Z 1 , przyjmij Φ j1 równe współczynnikowi prostej regresji liniowej Y na X j jest liniową kombinacją predyktorów, która wychwytuje możliwie najwięcej wariancji.
- Aby obliczyć Z 2 , dokonaj regresji każdej zmiennej na Z 1 i weź reszty. Następnie oblicz Z 2 , korzystając z tych ortogonalnych danych, dokładnie w taki sam sposób, w jaki obliczono Z 1 .
- Powtórz ten proces M razy, aby uzyskać M komponentów PLS.
3. Zastosuj metodę najmniejszych kwadratów, aby dopasować model regresji liniowej, wykorzystując komponenty PLS Z 1 , … , Z M jako predyktory.
4. Na koniec użyj k-krotnej walidacji krzyżowej , aby znaleźć optymalną liczbę komponentów PLS do utrzymania w modelu. „Optymalna” liczba komponentów PLS, którą należy zachować, to zazwyczaj liczba, która generuje najniższy testowy błąd średniokwadratowy (MSE).
Wniosek
W przypadkach, gdy w zbiorze danych występuje wieloliniowość, regresja cząstkowa metodą najmniejszych kwadratów zwykle działa lepiej niż zwykła regresja metodą najmniejszych kwadratów. Dobrym pomysłem jest jednak dopasowanie kilku różnych modeli, aby można było określić, który z nich najlepiej uogólnia niewidoczne dane.
W praktyce dopasowujemy wiele różnych typów modeli (PLS, PCR , Ridge , Lasso , wielokrotna regresja liniowa itp.) do zbioru danych i stosujemy k-krotną walidację krzyżową, aby zidentyfikować model, który najlepiej generuje test MSE. niższe w przypadku nowych danych. .