Najlepszy wybór podzbiorów w uczeniu maszynowym (objaśnienia i przykłady)
W uczeniu maszynowym często chcemy budować modele przy użyciu zestawu zmiennych predykcyjnych i zmiennej odpowiedzi . Naszym celem jest zbudowanie modelu, który będzie w stanie efektywnie wykorzystać zmienne predykcyjne do przewidzenia wartości zmiennej odpowiedzi.
Mając zestaw p zmiennych predykcyjnych ogółem, istnieje wiele modeli, które możemy potencjalnie zbudować. Jedną z metod, których możemy użyć do wybrania najlepszego modelu, jest wybór najlepszego podzbioru i działa ona w następujący sposób:
1. Niech M 0 będzie modelem zerowym, który nie zawiera zmiennej predykcyjnej.
2. Dla k = 1, 2, … p:
- Dopasuj wszystkie modele p C k , które zawierają dokładnie k predyktorów.
- Wybierz najlepszy spośród tych modeli pCk i nazwij go Mk . Zdefiniuj „najlepszy” jako model z najwyższym R2 lub, równoważnie, najniższym RSS.
3. Wybierz jeden najlepszy model spośród M 0 … M p , korzystając z błędu predykcji krzyżowej, Cp, BIC, AIC lub skorygowanego R 2 .
Należy zauważyć, że dla zbioru p zmiennych predykcyjnych istnieje 2 p możliwych modeli.
Przykład wyboru najlepszego podzbioru
Załóżmy, że mamy zbiór danych z p = 3 zmiennymi predykcyjnymi i zmienną odpowiedzi y. Aby dokonać najlepszego wyboru podzbioru za pomocą tego zbioru danych, dopasujemy następujące modele 2 p = 2 3 = 8:
- Model bez predyktorów
- Model z predyktorem x 1
- Model z predyktorem x 2
- Model z predyktorem x 3
- Model z predyktorami x 1 , x 2
- Model z predyktorami x 1 , x 3
- Model z predyktorami x2 , x3
- Model z predyktorami x 1 , x 2 , x 3
Następnie wybieralibyśmy model z najwyższym R2 z każdego zestawu modeli z k predyktorami. Na przykład możemy ostatecznie wybrać:
- Model bez predyktorów
- Model z predyktorem x 2
- Model z predyktorami x 1 , x 2
- Model z predyktorami x 1 , x 2 , x 3
Następnie dokonalibyśmy weryfikacji krzyżowej i wybrali najlepszy model jako ten, który daje najniższy błąd przewidywania, Cp, BIC, AIC lub skorygowany R2 .
Na przykład możemy wybrać następujący model jako „najlepszy”, ponieważ generuje on najniższy błąd przewidywania potwierdzony krzyżowo:
- Model z predyktorami x 1 , x 2
Kryteria wyboru „najlepszego” modelu
Ostatnim krokiem w wyborze najlepszego podzbioru jest wybór modelu z najniższym błędem przewidywania, najniższym Cp, najniższym BIC, najniższym AIC lub najniższym skorygowanym R2 . wyższy.
Oto formuły używane do obliczania każdego z tych wskaźników:
Cp: (RSS+2dσ̂) / n
AIC: (RSS+2dσ̂ 2 ) / (nσ̂ 2 )
BIC: (RSS+log(n)dσ̂ 2 ) / n
R 2 skorygowane: 1 – ( (RSS / (nd-1)) / (TSS / (n-1)) )
Złoto:
- d: Liczba predyktorów
- n: Całkowita liczba obserwacji
- σ̂: Oszacowanie wariancji błędu związanej z każdą miarą odpowiedzi w modelu regresji
- RSS: Pozostała suma kwadratów z modelu regresji
- TSS: Całkowita suma kwadratów modelu regresji
Zalety i wady najlepszego wyboru podzbioru
Wybór najlepszego podzbioru zapewnia następujące korzyści:
- Jest to proste podejście do zrozumienia i interpretacji.
- Pozwala nam to zidentyfikować najlepszy możliwy model, ponieważ uwzględniamy wszystkie kombinacje zmiennych predykcyjnych.
Jednak ta metoda ma następujące wady:
- Może to być intensywne obliczeniowo. Dla zbioru p zmiennych predykcyjnych istnieje 2 p możliwych modeli. Na przykład przy 10 zmiennych predykcyjnych istnieje 2 10 = 1000 możliwych modeli do rozważenia.
- Ponieważ uwzględnia bardzo dużą liczbę modeli, może potencjalnie znaleźć model, który będzie dobrze działał na danych szkoleniowych, ale nie na danych przyszłych. Może to prowadzić do nadmiernego dopasowania .
Wniosek
Chociaż wybór najlepszego podzbioru jest łatwy do wdrożenia i zrozumienia, może być niepraktyczny, jeśli pracujesz ze zbiorem danych zawierającym dużą liczbę predyktorów i może potencjalnie prowadzić do nadmiernego dopasowania.
Alternatywą dla tej metody jest selekcja krokowa , która jest bardziej wydajna obliczeniowo.