Najlepszy wybór podzbiorów w uczeniu maszynowym (objaśnienia i przykłady)


W uczeniu maszynowym często chcemy budować modele przy użyciu zestawu zmiennych predykcyjnych i zmiennej odpowiedzi . Naszym celem jest zbudowanie modelu, który będzie w stanie efektywnie wykorzystać zmienne predykcyjne do przewidzenia wartości zmiennej odpowiedzi.

Mając zestaw p zmiennych predykcyjnych ogółem, istnieje wiele modeli, które możemy potencjalnie zbudować. Jedną z metod, których możemy użyć do wybrania najlepszego modelu, jest wybór najlepszego podzbioru i działa ona w następujący sposób:

1. Niech M 0 będzie modelem zerowym, który nie zawiera zmiennej predykcyjnej.

2. Dla k = 1, 2, … p:

  • Dopasuj wszystkie modele p C k , które zawierają dokładnie k predyktorów.
  • Wybierz najlepszy spośród tych modeli pCk i nazwij go Mk . Zdefiniuj „najlepszy” jako model z najwyższym R2 lub, równoważnie, najniższym RSS.

3. Wybierz jeden najlepszy model spośród M 0 … M p , korzystając z błędu predykcji krzyżowej, Cp, BIC, AIC lub skorygowanego R 2 .

Należy zauważyć, że dla zbioru p zmiennych predykcyjnych istnieje 2 p możliwych modeli.

Przykład wyboru najlepszego podzbioru

Załóżmy, że mamy zbiór danych z p = 3 zmiennymi predykcyjnymi i zmienną odpowiedzi y. Aby dokonać najlepszego wyboru podzbioru za pomocą tego zbioru danych, dopasujemy następujące modele 2 p = 2 3 = 8:

  • Model bez predyktorów
  • Model z predyktorem x 1
  • Model z predyktorem x 2
  • Model z predyktorem x 3
  • Model z predyktorami x 1 , x 2
  • Model z predyktorami x 1 , x 3
  • Model z predyktorami x2 , x3
  • Model z predyktorami x 1 , x 2 , x 3

Następnie wybieralibyśmy model z najwyższym R2 z każdego zestawu modeli z k predyktorami. Na przykład możemy ostatecznie wybrać:

  • Model bez predyktorów
  • Model z predyktorem x 2
  • Model z predyktorami x 1 , x 2
  • Model z predyktorami x 1 , x 2 , x 3

Następnie dokonalibyśmy weryfikacji krzyżowej i wybrali najlepszy model jako ten, który daje najniższy błąd przewidywania, Cp, BIC, AIC lub skorygowany R2 .

Na przykład możemy wybrać następujący model jako „najlepszy”, ponieważ generuje on najniższy błąd przewidywania potwierdzony krzyżowo:

  • Model z predyktorami x 1 , x 2

Kryteria wyboru „najlepszego” modelu

Ostatnim krokiem w wyborze najlepszego podzbioru jest wybór modelu z najniższym błędem przewidywania, najniższym Cp, najniższym BIC, najniższym AIC lub najniższym skorygowanym R2 . wyższy.

Oto formuły używane do obliczania każdego z tych wskaźników:

Cp: (RSS+2dσ̂) / n

AIC: (RSS+2dσ̂ 2 ) / (nσ̂ 2 )

BIC: (RSS+log(n)dσ̂ 2 ) / n

R 2 skorygowane: 1 – ( (RSS / (nd-1)) / (TSS / (n-1)) )

Złoto:

  • d: Liczba predyktorów
  • n: Całkowita liczba obserwacji
  • σ̂: Oszacowanie wariancji błędu związanej z każdą miarą odpowiedzi w modelu regresji
  • RSS: Pozostała suma kwadratów z modelu regresji
  • TSS: Całkowita suma kwadratów modelu regresji

Zalety i wady najlepszego wyboru podzbioru

Wybór najlepszego podzbioru zapewnia następujące korzyści:

  • Jest to proste podejście do zrozumienia i interpretacji.
  • Pozwala nam to zidentyfikować najlepszy możliwy model, ponieważ uwzględniamy wszystkie kombinacje zmiennych predykcyjnych.

Jednak ta metoda ma następujące wady:

  • Może to być intensywne obliczeniowo. Dla zbioru p zmiennych predykcyjnych istnieje 2 p możliwych modeli. Na przykład przy 10 zmiennych predykcyjnych istnieje 2 10 = 1000 możliwych modeli do rozważenia.
  • Ponieważ uwzględnia bardzo dużą liczbę modeli, może potencjalnie znaleźć model, który będzie dobrze działał na danych szkoleniowych, ale nie na danych przyszłych. Może to prowadzić do nadmiernego dopasowania .

Wniosek

Chociaż wybór najlepszego podzbioru jest łatwy do wdrożenia i zrozumienia, może być niepraktyczny, jeśli pracujesz ze zbiorem danych zawierającym dużą liczbę predyktorów i może potencjalnie prowadzić do nadmiernego dopasowania.

Alternatywą dla tej metody jest selekcja krokowa , która jest bardziej wydajna obliczeniowo.

Dodaj komentarz

Twój adres e-mail nie zostanie opublikowany. Wymagane pola są oznaczone *