Wprowadzenie do pakowania w uczeniu maszynowym


Gdy związek między zbiorem zmiennych predykcyjnych a zmienną odpowiedzi jest liniowy, do modelowania związku między zmiennymi możemy zastosować metody takie jak wielokrotna regresja liniowa .

Gdy jednak zależność jest bardziej złożona, często musimy uciekać się do metod nieliniowych.

Jedną z takich metod są drzewa klasyfikacji i regresji (często w skrócie CART), które wykorzystują zestaw zmiennych predykcyjnych do tworzenia drzew decyzyjnych , które przewidują wartość zmiennej odpowiedzi.

Przykład drzewa regresji, które wykorzystuje lata doświadczenia i średnie home runy do przewidywania wynagrodzenia zawodowego gracza w baseball.

Jednak wadą modeli CART jest to, że charakteryzują się one dużą wariancją . Oznacza to, że jeśli podzielimy zbiór danych na dwie połowy i zastosujemy drzewo decyzyjne do obu połówek, wyniki mogą być bardzo różne.

Jedną z metod, którą możemy zastosować w celu zmniejszenia wariancji modeli CART, jest gromadzenie danych , czasami nazywane agregacją bootstrap .

Co to jest pakowanie?

Kiedy tworzymy pojedyncze drzewo decyzyjne, do budowy modelu używamy tylko jednego zestawu danych uczących.

Jednakże pakowanie wykorzystuje następującą metodę:

1. Pobierz próbki bootstrapowe z oryginalnego zbioru danych.

  • Przypomnijmy, że próbka ładowana to próbka z oryginalnego zbioru danych, w którym dokonywano obserwacji ze zamianą.

2. Utwórz drzewo decyzyjne dla każdej próbki bootstrap.

3. Uśrednij przewidywania z każdego drzewa, aby otrzymać ostateczny model.

  • W przypadku drzew regresyjnych bierzemy średnią z przewidywań dokonanych przez drzewa B.
  • W przypadku drzew klasyfikacyjnych przyjmujemy najczęstsze przewidywania dokonywane przez drzewa B.

Łączenie w pakiety może być używane z dowolnym algorytmem uczenia maszynowego, ale jest szczególnie przydatne w przypadku drzew decyzyjnych, ponieważ z natury charakteryzują się one dużą wariancją, a pakowanie jest w stanie znacznie zmniejszyć wariancję, co skutkuje redukcją błędów testowych.

Aby zastosować workowanie w przypadku drzew decyzyjnych, hodujemy pojedyncze drzewa na głębokości, bez ich przycinania. Powoduje to, że pojedyncze drzewa charakteryzują się dużą wariancją, ale niskim obciążeniem. Następnie, biorąc średnie przewidywania z tych drzew, jesteśmy w stanie zmniejszyć wariancję.

W praktyce optymalną wydajność osiąga się zwykle w przypadku 50–500 drzew, ale możliwe jest dopasowanie tysięcy drzew w celu uzyskania ostatecznego modelu.

Należy tylko pamiętać, że dopasowanie większej liczby drzew będzie wymagało większej mocy obliczeniowej, co może, ale nie musi, stanowić problem w zależności od rozmiaru zbioru danych.

Szacowanie błędów out-of-bag

Okazuje się, że możemy obliczyć błąd testowy modelu workowanego bez polegania na k-krotnej walidacji krzyżowej .

Powodem jest to, że można wykazać, że każda próbka bootstrap zawiera około 2/3 obserwacji z oryginalnego zbioru danych. Pozostała jedna trzecia obserwacji, które nie pasują do drzewa w workach, nazywana jest obserwacjami out-of-bag (OOB) .

Możemy przewidzieć wartość i-tej obserwacji w oryginalnym zbiorze danych, biorąc średnią prognozę z każdego drzewa, w którym ta obserwacja była OOB.

Możemy zastosować to podejście, aby dokonać prognozy dla wszystkich n obserwacji w oryginalnym zbiorze danych i w ten sposób obliczyć poziom błędu, który jest prawidłowym oszacowaniem błędu testowania.

Zaletą stosowania tego podejścia do szacowania błędu testu jest to, że jest ono znacznie szybsze niż k-krotna walidacja krzyżowa, zwłaszcza gdy zbiór danych jest duży.

Zrozumienie znaczenia predyktorów

Pamiętaj, że jedną z zalet drzew decyzyjnych jest to, że można je łatwo interpretować i wizualizować.

Kiedy zamiast tego korzystamy z workowania, nie jesteśmy już w stanie zinterpretować ani wizualizować pojedynczego drzewa, ponieważ ostateczny model w workach jest wynikiem uśrednienia wielu różnych drzew. Trafność przewidywań zyskujemy kosztem możliwości interpretacji.

Jednakże nadal możemy zrozumieć znaczenie każdej zmiennej predykcyjnej, obliczając całkowitą redukcję RSS (resztowej sumy kwadratów) w wyniku rozkładu w obrębie danego predyktora, uśrednionego dla wszystkich drzew B. Im większa wartość, tym ważniejszy jest predyktor.

Wykres ważności zmiennych dla modelu pakowania
Przykład wykresu zmiennej ważności.

Podobnie w przypadku modeli klasyfikacyjnych możemy obliczyć całkowitą redukcję indeksu Giniego w wyniku rozkładu po danym predyktorze, uśrednioną po wszystkich drzewach B. Im większa wartość, tym ważniejszy predyktor.

Chociaż nie możemy dokładnie zinterpretować ostatecznego modelu ogólnego, nadal możemy zorientować się, jak ważna jest każda zmienna predykcyjna przy przewidywaniu odpowiedzi.

Wyjdź poza pakowanie

Zaletą workowania jest to, że generalnie zapewnia poprawę wskaźnika błędów testu w porównaniu z pojedynczym drzewem decyzyjnym.

Wadą jest to, że przewidywania pochodzące ze zbioru drzew w workach mogą być silnie skorelowane, jeśli w zbiorze danych występuje bardzo silny predyktor.

W tym przypadku większość lub wszystkie drzewa w workach użyją tego predyktora przy pierwszym podziale, w wyniku czego drzewa będą do siebie podobne i będą miały wysoce skorelowane przewidywania.

Jednym ze sposobów obejścia tego problemu jest użycie losowych lasów, które wykorzystują metodę podobną do pakowania w worki, ale mogą produkować udekorowane drzewa, co często prowadzi do niższych wskaźników błędów testowych.

Proste wprowadzenie do losowych lasów możesz przeczytać tutaj .

Dodatkowe zasoby

Wprowadzenie do drzew klasyfikacji i regresji
Jak wykonać pakowanie w R (krok po kroku)

Dodaj komentarz

Twój adres e-mail nie zostanie opublikowany. Wymagane pola są oznaczone *