Co to jest selekcja etapowa? (wyjaśnienie i przykłady)
W dziedzinie uczenia maszynowego naszym celem jest stworzenie modelu, który będzie w stanie efektywnie wykorzystać zestaw zmiennych predykcyjnych do przewidzenia wartości zmiennej odpowiedzi .
Mając zestaw p zmiennych predykcyjnych ogółem, istnieje wiele modeli, które moglibyśmy potencjalnie zbudować. Jedną z metod, których możemy użyć do wybrania najlepszego modelu, jest wybór najlepszego podzbioru , który polega na wybraniu najlepszego modelu spośród wszystkich możliwych modeli, które można zbudować za pomocą zestawu predyktorów.
Niestety metoda ta ma dwie wady:
- Może to być intensywne obliczeniowo. Dla zbioru p zmiennych predykcyjnych istnieje 2 p możliwych modeli. Na przykład przy 10 zmiennych predykcyjnych istnieje 2 10 = 1000 możliwych modeli do rozważenia.
- Ponieważ uwzględnia bardzo dużą liczbę modeli, może potencjalnie znaleźć model, który będzie dobrze działał na danych szkoleniowych, ale nie na danych przyszłych. Może to prowadzić do nadmiernego dopasowania .
Alternatywą dla wyboru najlepszego podzbioru jest wybór krokowy , polegający na porównaniu znacznie mniejszego zestawu modeli.
Istnieją dwa rodzaje metod wyboru kroku: wybór kroku do przodu i wybór kroku do tyłu.
Wybór krok po kroku
Wybór do przodu krok po kroku działa w następujący sposób:
1. Niech M 0 będzie modelem zerowym, który nie zawiera zmiennej predykcyjnej.
2. Dla k = 0, 2, … p-1:
- Dopasuj wszystkie modele pk zwiększające predyktory w M k z dodatkową zmienną predykcyjną.
- Wybierz najlepszy spośród tych modeli pk i nazwij go M k+1 . Zdefiniuj „najlepszy” jako model z najwyższym R2 lub, równoważnie, najniższym RSS.
3. Wybierz jeden najlepszy model spośród M 0 … M p , korzystając z błędu predykcji krzyżowej, Cp, BIC, AIC lub skorygowanego R 2 .
Wybór wsteczny krok po kroku
Wybór kroku wstecz działa w następujący sposób:
1. Niech M p będzie pełnym modelem, który zawiera wszystkie p zmiennych predykcyjnych.
2. Dla k = p, p-1, … 1:
- Dopasuj wszystkie modele k, które zawierają wszystkie predyktory z wyjątkiem jednego w Mk , uzyskując w sumie k-1 zmiennych predykcyjnych.
- Wybierz najlepszy spośród tych k modeli i nazwij go M k-1 . Zdefiniuj „najlepszy” jako model z najwyższym R2 lub, równoważnie, najniższym RSS.
3. Wybierz jeden najlepszy model spośród M 0 … M p , korzystając z błędu predykcji krzyżowej, Cp, BIC, AIC lub skorygowanego R 2 .
Kryteria wyboru „najlepszego” modelu
Ostatnim krokiem stopniowej selekcji do przodu i do tyłu jest wybór modelu z najniższym błędem przewidywania, najniższym Cp, najniższym BIC, najwyższym niskim AIC lub najwyższym skorygowanym R2 .
Oto formuły używane do obliczania każdego z tych wskaźników:
Cp: (RSS+2dσ̂) / n
AIC: (RSS+2dσ̂ 2 ) / (nσ̂ 2 )
BIC: (RSS+log(n)dσ̂ 2 ) / n
R 2 skorygowane: 1 – ( (RSS / (nd-1)) / (TSS / (n-1)) )
Złoto:
- d: Liczba predyktorów
- n: Całkowita liczba obserwacji
- σ̂: Oszacowanie wariancji błędu związanej z każdą miarą odpowiedzi w modelu regresji
- RSS: Pozostała suma kwadratów z modelu regresji
- TSS: Całkowita suma kwadratów modelu regresji
Zalety i wady selekcji etapowej
Selekcja etapowa ma następujące zalety :
Ta metoda jest bardziej wydajna obliczeniowo niż wybieranie najlepszego podzbioru. Biorąc pod uwagę zmienne predykcyjne p , wybór najlepszego podzbioru musi odpowiadać modelom 2 p .
I odwrotnie, wybór krokowy powinien pasować tylko do modeli 1+p(p+1)/2. Dla p = 10 zmiennych predykcyjnych najlepszy wybór podzbioru powinien pasować do 1000 modeli, natomiast wybór krokowy powinien pasować tylko do 56 modeli.
Jednakże selekcja etapowa ma następującą potencjalną wadę:
Nie ma gwarancji znalezienia najlepszego możliwego modelu spośród wszystkich potencjalnych modeli 2p .
Załóżmy na przykład, że mamy zbiór danych z predyktorami p = 3. Najlepszy możliwy model z jednym predyktorem może zawierać x 1 , a najlepszy możliwy model z dwoma predyktorami może zamiast tego zawierać x 1 i x 2 .
W tym przypadku wybór krokowy w przód nie pozwoli wybrać najlepszego możliwego modelu dwupredykcyjnego, ponieważ M 1 będzie zawierać x 1 , więc M 2 musi również zawierać x 1 oraz inną zmienną.