Proste wprowadzenie do losowych lasów
Kiedy związek między zbiorem zmiennych predykcyjnych a zmienną odpowiedzi jest bardzo złożony, często używamy metod nieliniowych do modelowania związku między nimi.
Jedną z takich metod są drzewa klasyfikacji i regresji (często w skrócie CART), które wykorzystują zestaw zmiennych predykcyjnych do tworzenia drzew decyzyjnych , które przewidują wartość zmiennej odpowiedzi.
Zaletą drzew decyzyjnych jest to, że można je łatwo interpretować i wizualizować. Problem polega na tym, że często charakteryzują się one dużą wariancją . Oznacza to, że jeśli podzielimy zbiór danych na dwie połowy i zastosujemy drzewo decyzyjne do obu połówek, wyniki mogą być bardzo różne.
Jednym ze sposobów ograniczenia wariancji drzew decyzyjnych jest zastosowanie metody zwanej pakowaniem , która działa w następujący sposób:
1. Pobierz próbki bootstrapowe z oryginalnego zbioru danych.
2. Utwórz drzewo decyzyjne dla każdej próbki bootstrap.
3. Uśrednij przewidywania z każdego drzewa, aby otrzymać ostateczny model.
Zaletą tego podejścia jest to, że model klastrowy generalnie zapewnia poprawę współczynnika błędów testów w porównaniu z pojedynczym drzewem decyzyjnym.
Wadą jest to, że przewidywania pochodzące ze zbioru drzew w workach mogą być silnie skorelowane, jeśli w zbiorze danych występuje bardzo silny predyktor. W tym przypadku większość lub wszystkie drzewa w workach użyją tego predyktora przy pierwszym podziale, w wyniku czego drzewa będą do siebie podobne i będą miały wysoce skorelowane przewidywania.
Kiedy więc uśredniamy przewidywania z każdego drzewa, aby otrzymać ostateczny model, możliwe jest, że model ten w rzeczywistości nie zmniejsza wariancji w porównaniu z pojedynczym drzewem decyzyjnym.
Jednym ze sposobów obejścia tego problemu jest użycie metody zwanej lasami losowymi .
Czym są losowe lasy?
Podobnie jak w przypadku pakowania, losowe lasy również pobierają próbki ładowane z oryginalnego zbioru danych.
Jednakże podczas konstruowania drzewa decyzyjnego dla każdej próbki bootstrapowej i za każdym razem, gdy rozważany jest podział drzewa, tylko losowa próbka m predyktorów jest uważana za kandydata do podziału pomiędzy pełny zestaw p predyktorów.
Oto pełna metoda używana przez lasy losowe do tworzenia modelu:
1. Pobierz próbki bootstrapowe z oryginalnego zbioru danych.
2. Utwórz drzewo decyzyjne dla każdej próbki bootstrap.
- Podczas konstruowania drzewa za każdym razem, gdy rozważany jest podział, tylko losowa próbka m predyktorów jest uważana za kandydatów do podziału z pełnego zestawu p predyktorów.
3. Uśrednij przewidywania z każdego drzewa, aby otrzymać ostateczny model.
Stosując tę metodę, zbiór drzew w losowym lesie dekoruje się na wzór drzew powstałych w workach.
Kiedy więc weźmiemy średnie przewidywania z każdego drzewa, aby uzyskać ostateczny model, będzie on charakteryzował się mniejszą zmiennością i niższym poziomem błędów testowania niż model workowany.
Używając lasów losowych, generalnie za każdym razem, gdy dzielimy drzewo decyzyjne, predyktory m = √ p traktujemy jako kandydatów podzielonych.
Na przykład, jeśli w zbiorze danych mamy łącznie p = 16 predyktorów, na ogół rozważamy tylko m = √16 = 4 predyktory jako potencjalnych kandydatów dla każdego podziału.
Uwaga techniczna:
Co ciekawe, jeśli wybierzemy m = p (tj. rozważymy wszystkie predyktory jako kandydatów w każdym podziale), jest to po prostu równoznaczne z użyciem workowania.
Szacowanie błędów out-of-bag
Podobnie jak w przypadku workowania, możemy obliczyć błąd testowy losowego modelu lasu, korzystając z estymacji out-of-bag .
Można wykazać, że każda próbka bootstrap zawiera około 2/3 obserwacji z oryginalnego zbioru danych. Pozostała jedna trzecia obserwacji, które nie pasują do drzewa, nazywana jest obserwacjami out-of-bag (OOB) .
Możemy przewidzieć wartość i-tej obserwacji w oryginalnym zbiorze danych, biorąc średnią prognozę z każdego drzewa, w którym ta obserwacja była OOB.
Możemy zastosować to podejście, aby dokonać prognozy dla wszystkich n obserwacji w oryginalnym zbiorze danych i w ten sposób obliczyć poziom błędu, który jest prawidłowym oszacowaniem błędu testowego.
Zaletą stosowania tego podejścia do szacowania błędu testu jest to, że jest ono znacznie szybsze niż k-krotna walidacja krzyżowa , zwłaszcza gdy zbiór danych jest duży.
Zalety i wady losowych lasów
Lasy losowe mają następujące zalety :
- W większości przypadków losowe lasy zapewnią poprawę dokładności w porównaniu z modelami workowymi, a zwłaszcza w przypadku pojedynczych drzew decyzyjnych.
- Lasy losowe są odporne na wartości odstające.
- Do korzystania z losowych lasów nie jest wymagane żadne wstępne przetwarzanie.
Lasy losowe mają jednak następujące potencjalne wady:
- Są trudne do interpretacji.
- Korzystanie z dużych zbiorów danych może wymagać dużej mocy obliczeniowej (tzn. powolnej).
W praktyce badacze danych zazwyczaj korzystają z lasów losowych, aby zmaksymalizować dokładność predykcyjną, więc fakt, że nie można ich łatwo zinterpretować, zwykle nie stanowi problemu.