Co to jest selekcja etapowa? (wyjaśnienie i przykłady)


W dziedzinie uczenia maszynowego naszym celem jest stworzenie modelu, który będzie w stanie efektywnie wykorzystać zestaw zmiennych predykcyjnych do przewidzenia wartości zmiennej odpowiedzi .

Mając zestaw p zmiennych predykcyjnych ogółem, istnieje wiele modeli, które moglibyśmy potencjalnie zbudować. Jedną z metod, których możemy użyć do wybrania najlepszego modelu, jest wybór najlepszego podzbioru , który polega na wybraniu najlepszego modelu spośród wszystkich możliwych modeli, które można zbudować za pomocą zestawu predyktorów.

Niestety metoda ta ma dwie wady:

  • Może to być intensywne obliczeniowo. Dla zbioru p zmiennych predykcyjnych istnieje 2 p możliwych modeli. Na przykład przy 10 zmiennych predykcyjnych istnieje 2 10 = 1000 możliwych modeli do rozważenia.
  • Ponieważ uwzględnia bardzo dużą liczbę modeli, może potencjalnie znaleźć model, który będzie dobrze działał na danych szkoleniowych, ale nie na danych przyszłych. Może to prowadzić do nadmiernego dopasowania .

Alternatywą dla wyboru najlepszego podzbioru jest wybór krokowy , polegający na porównaniu znacznie mniejszego zestawu modeli.

Istnieją dwa rodzaje metod wyboru kroku: wybór kroku do przodu i wybór kroku do tyłu.

Wybór krok po kroku

Wybór do przodu krok po kroku działa w następujący sposób:

1. Niech M 0 będzie modelem zerowym, który nie zawiera zmiennej predykcyjnej.

2. Dla k = 0, 2, … p-1:

  • Dopasuj wszystkie modele pk zwiększające predyktory w M k z dodatkową zmienną predykcyjną.
  • Wybierz najlepszy spośród tych modeli pk i nazwij go M k+1 . Zdefiniuj „najlepszy” jako model z najwyższym R2 lub, równoważnie, najniższym RSS.

3. Wybierz jeden najlepszy model spośród M 0 … M p , korzystając z błędu predykcji krzyżowej, Cp, BIC, AIC lub skorygowanego R 2 .

Wybór wsteczny krok po kroku

Wybór kroku wstecz działa w następujący sposób:

1. Niech M p będzie pełnym modelem, który zawiera wszystkie p zmiennych predykcyjnych.

2. Dla k = p, p-1, … 1:

  • Dopasuj wszystkie modele k, które zawierają wszystkie predyktory z wyjątkiem jednego w Mk , uzyskując w sumie k-1 zmiennych predykcyjnych.
  • Wybierz najlepszy spośród tych k modeli i nazwij go M k-1 . Zdefiniuj „najlepszy” jako model z najwyższym R2 lub, równoważnie, najniższym RSS.

3. Wybierz jeden najlepszy model spośród M 0 … M p , korzystając z błędu predykcji krzyżowej, Cp, BIC, AIC lub skorygowanego R 2 .

Kryteria wyboru „najlepszego” modelu

Ostatnim krokiem stopniowej selekcji do przodu i do tyłu jest wybór modelu z najniższym błędem przewidywania, najniższym Cp, najniższym BIC, najwyższym niskim AIC lub najwyższym skorygowanym R2 .

Oto formuły używane do obliczania każdego z tych wskaźników:

Cp: (RSS+2dσ̂) / n

AIC: (RSS+2dσ̂ 2 ) / (nσ̂ 2 )

BIC: (RSS+log(n)dσ̂ 2 ) / n

R 2 skorygowane: 1 – ( (RSS / (nd-1)) / (TSS / (n-1)) )

Złoto:

  • d: Liczba predyktorów
  • n: Całkowita liczba obserwacji
  • σ̂: Oszacowanie wariancji błędu związanej z każdą miarą odpowiedzi w modelu regresji
  • RSS: Pozostała suma kwadratów z modelu regresji
  • TSS: Całkowita suma kwadratów modelu regresji

Zalety i wady selekcji etapowej

Selekcja etapowa ma następujące zalety :

Ta metoda jest bardziej wydajna obliczeniowo niż wybieranie najlepszego podzbioru. Biorąc pod uwagę zmienne predykcyjne p , wybór najlepszego podzbioru musi odpowiadać modelom 2 p .

I odwrotnie, wybór krokowy powinien pasować tylko do modeli 1+p(p+1)/2. Dla p = 10 zmiennych predykcyjnych najlepszy wybór podzbioru powinien pasować do 1000 modeli, natomiast wybór krokowy powinien pasować tylko do 56 modeli.

Jednakże selekcja etapowa ma następującą potencjalną wadę:

Nie ma gwarancji znalezienia najlepszego możliwego modelu spośród wszystkich potencjalnych modeli 2p .

Załóżmy na przykład, że mamy zbiór danych z predyktorami p = 3. Najlepszy możliwy model z jednym predyktorem może zawierać x 1 , a najlepszy możliwy model z dwoma predyktorami może zamiast tego zawierać x 1 i x 2 .

W tym przypadku wybór krokowy w przód nie pozwoli wybrać najlepszego możliwego modelu dwupredykcyjnego, ponieważ M 1 będzie zawierać x 1 , więc M 2 musi również zawierać x 1 oraz inną zmienną.

Dodaj komentarz

Twój adres e-mail nie zostanie opublikowany. Wymagane pola są oznaczone *