Co to jest selekcja etapowa? (wyjaśnienie i przykłady)

Przez Benjamin Anderson 27 lipca, 2023 Przewodnik 0 komentarzy

W dziedzinie uczenia maszynowego naszym celem jest stworzenie modelu, który będzie w stanie efektywnie wykorzystać zestaw zmiennych predykcyjnych do przewidzenia wartości zmiennej odpowiedzi .

Mając zestaw p zmiennych predykcyjnych ogółem, istnieje wiele modeli, które moglibyśmy potencjalnie zbudować. Jedną z metod, których możemy użyć do wybrania najlepszego modelu, jest wybór najlepszego podzbioru , który polega na wybraniu najlepszego modelu spośród wszystkich możliwych modeli, które można zbudować za pomocą zestawu predyktorów.

Niestety metoda ta ma dwie wady:

Może to być intensywne obliczeniowo. Dla zbioru p zmiennych predykcyjnych istnieje 2 ^p możliwych modeli. Na przykład przy 10 zmiennych predykcyjnych istnieje 2 ¹⁰ = 1000 możliwych modeli do rozważenia.
Ponieważ uwzględnia bardzo dużą liczbę modeli, może potencjalnie znaleźć model, który będzie dobrze działał na danych szkoleniowych, ale nie na danych przyszłych. Może to prowadzić do nadmiernego dopasowania .

Alternatywą dla wyboru najlepszego podzbioru jest wybór krokowy , polegający na porównaniu znacznie mniejszego zestawu modeli.

Istnieją dwa rodzaje metod wyboru kroku: wybór kroku do przodu i wybór kroku do tyłu.

Wybór krok po kroku

Wybór do przodu krok po kroku działa w następujący sposób:

1. Niech M ₀ będzie modelem zerowym, który nie zawiera zmiennej predykcyjnej.

2. Dla k = 0, 2, … p-1:

Dopasuj wszystkie modele pk zwiększające predyktory w M _k z dodatkową zmienną predykcyjną.
Wybierz najlepszy spośród tych modeli pk i nazwij go M _k+1 . Zdefiniuj „najlepszy” jako model z najwyższym ^R2 lub, równoważnie, najniższym RSS.

3. Wybierz jeden najlepszy model spośród M ₀ … M _p , korzystając z błędu predykcji krzyżowej, Cp, BIC, AIC lub skorygowanego R ² .

Wybór wsteczny krok po kroku

Wybór kroku wstecz działa w następujący sposób:

1. Niech M _p będzie pełnym modelem, który zawiera wszystkie p zmiennych predykcyjnych.

2. Dla k = p, p-1, … 1:

Dopasuj wszystkie modele k, które zawierają wszystkie predyktory z wyjątkiem jednego w _Mk , uzyskując w sumie k-1 zmiennych predykcyjnych.
Wybierz najlepszy spośród tych k modeli i nazwij go M _k-1 . Zdefiniuj „najlepszy” jako model z najwyższym ^R2 lub, równoważnie, najniższym RSS.

3. Wybierz jeden najlepszy model spośród M ₀ … M _p , korzystając z błędu predykcji krzyżowej, Cp, BIC, AIC lub skorygowanego R ² .

Kryteria wyboru „najlepszego” modelu

Ostatnim krokiem stopniowej selekcji do przodu i do tyłu jest wybór modelu z najniższym błędem przewidywania, najniższym Cp, najniższym BIC, najwyższym niskim AIC lub najwyższym skorygowanym ^R2 .

Oto formuły używane do obliczania każdego z tych wskaźników:

Cp: (RSS+2dσ̂) / n

AIC: (RSS+2dσ̂ ² ) / (nσ̂ ² )

BIC: (RSS+log(n)dσ̂ ² ) / n

R ² skorygowane: 1 – ( (RSS / (nd-1)) / (TSS / (n-1)) )

Złoto:

d: Liczba predyktorów
n: Całkowita liczba obserwacji
σ̂: Oszacowanie wariancji błędu związanej z każdą miarą odpowiedzi w modelu regresji
RSS: Pozostała suma kwadratów z modelu regresji
TSS: Całkowita suma kwadratów modelu regresji

Zalety i wady selekcji etapowej

Selekcja etapowa ma następujące zalety :

Ta metoda jest bardziej wydajna obliczeniowo niż wybieranie najlepszego podzbioru. Biorąc pod uwagę zmienne predykcyjne p , wybór najlepszego podzbioru musi odpowiadać modelom 2 ^p .

I odwrotnie, wybór krokowy powinien pasować tylko do modeli 1+p(p+1)/2. Dla p = 10 zmiennych predykcyjnych najlepszy wybór podzbioru powinien pasować do 1000 modeli, natomiast wybór krokowy powinien pasować tylko do 56 modeli.

Jednakże selekcja etapowa ma następującą potencjalną wadę:

Nie ma gwarancji znalezienia najlepszego możliwego modelu spośród wszystkich potencjalnych modeli ^2p .

Załóżmy na przykład, że mamy zbiór danych z predyktorami p = 3. Najlepszy możliwy model z jednym predyktorem może zawierać x ₁ , a najlepszy możliwy model z dwoma predyktorami może zamiast tego zawierać x ₁ i x ₂ .

W tym przypadku wybór krokowy w przód nie pozwoli wybrać najlepszego możliwego modelu dwupredykcyjnego, ponieważ M ₁ będzie zawierać x ₁ , więc M ₂ musi również zawierać x ₁ oraz inną zmienną.

o autorze

Dr Benjamin Anderson

Cześć, jestem Benjamin i jestem emerytowanym profesorem statystyki, który został oddanym nauczycielem Statorials. Dzięki bogatemu doświadczeniu i wiedzy specjalistycznej w dziedzinie statystyki chętnie dzielę się swoją wiedzą, aby wzmocnić pozycję uczniów za pośrednictwem Statorials. Wiedzieć więcej