Proste wprowadzenie do losowych lasów


Kiedy związek między zbiorem zmiennych predykcyjnych a zmienną odpowiedzi jest bardzo złożony, często używamy metod nieliniowych do modelowania związku między nimi.

Jedną z takich metod są drzewa klasyfikacji i regresji (często w skrócie CART), które wykorzystują zestaw zmiennych predykcyjnych do tworzenia drzew decyzyjnych , które przewidują wartość zmiennej odpowiedzi.

Przykład drzewa regresji, które wykorzystuje lata doświadczenia i średnie home runy do przewidywania wynagrodzenia zawodowego gracza w baseball.

Zaletą drzew decyzyjnych jest to, że można je łatwo interpretować i wizualizować. Problem polega na tym, że często charakteryzują się one dużą wariancją . Oznacza to, że jeśli podzielimy zbiór danych na dwie połowy i zastosujemy drzewo decyzyjne do obu połówek, wyniki mogą być bardzo różne.

Jednym ze sposobów ograniczenia wariancji drzew decyzyjnych jest zastosowanie metody zwanej pakowaniem , która działa w następujący sposób:

1. Pobierz próbki bootstrapowe z oryginalnego zbioru danych.

2. Utwórz drzewo decyzyjne dla każdej próbki bootstrap.

3. Uśrednij przewidywania z każdego drzewa, aby otrzymać ostateczny model.

Zaletą tego podejścia jest to, że model klastrowy generalnie zapewnia poprawę współczynnika błędów testów w porównaniu z pojedynczym drzewem decyzyjnym.

Wadą jest to, że przewidywania pochodzące ze zbioru drzew w workach mogą być silnie skorelowane, jeśli w zbiorze danych występuje bardzo silny predyktor. W tym przypadku większość lub wszystkie drzewa w workach użyją tego predyktora przy pierwszym podziale, w wyniku czego drzewa będą do siebie podobne i będą miały wysoce skorelowane przewidywania.

Kiedy więc uśredniamy przewidywania z każdego drzewa, aby otrzymać ostateczny model, możliwe jest, że model ten w rzeczywistości nie zmniejsza wariancji w porównaniu z pojedynczym drzewem decyzyjnym.

Jednym ze sposobów obejścia tego problemu jest użycie metody zwanej lasami losowymi .

Czym są losowe lasy?

Podobnie jak w przypadku pakowania, losowe lasy również pobierają próbki ładowane z oryginalnego zbioru danych.

Jednakże podczas konstruowania drzewa decyzyjnego dla każdej próbki bootstrapowej i za każdym razem, gdy rozważany jest podział drzewa, tylko losowa próbka m predyktorów jest uważana za kandydata do podziału pomiędzy pełny zestaw p predyktorów.

Oto pełna metoda używana przez lasy losowe do tworzenia modelu:

1. Pobierz próbki bootstrapowe z oryginalnego zbioru danych.

2. Utwórz drzewo decyzyjne dla każdej próbki bootstrap.

  • Podczas konstruowania drzewa za każdym razem, gdy rozważany jest podział, tylko losowa próbka m predyktorów jest uważana za kandydatów do podziału z pełnego zestawu p predyktorów.

3. Uśrednij przewidywania z każdego drzewa, aby otrzymać ostateczny model.

Stosując tę metodę, zbiór drzew w losowym lesie dekoruje się na wzór drzew powstałych w workach.

Kiedy więc weźmiemy średnie przewidywania z każdego drzewa, aby uzyskać ostateczny model, będzie on charakteryzował się mniejszą zmiennością i niższym poziomem błędów testowania niż model workowany.

Używając lasów losowych, generalnie za każdym razem, gdy dzielimy drzewo decyzyjne, predyktory m = √ p traktujemy jako kandydatów podzielonych.

Na przykład, jeśli w zbiorze danych mamy łącznie p = 16 predyktorów, na ogół rozważamy tylko m = √16 = 4 predyktory jako potencjalnych kandydatów dla każdego podziału.

Uwaga techniczna:

Co ciekawe, jeśli wybierzemy m = p (tj. rozważymy wszystkie predyktory jako kandydatów w każdym podziale), jest to po prostu równoznaczne z użyciem workowania.

Szacowanie błędów out-of-bag

Podobnie jak w przypadku workowania, możemy obliczyć błąd testowy losowego modelu lasu, korzystając z estymacji out-of-bag .

Można wykazać, że każda próbka bootstrap zawiera około 2/3 obserwacji z oryginalnego zbioru danych. Pozostała jedna trzecia obserwacji, które nie pasują do drzewa, nazywana jest obserwacjami out-of-bag (OOB) .

Możemy przewidzieć wartość i-tej obserwacji w oryginalnym zbiorze danych, biorąc średnią prognozę z każdego drzewa, w którym ta obserwacja była OOB.

Możemy zastosować to podejście, aby dokonać prognozy dla wszystkich n obserwacji w oryginalnym zbiorze danych i w ten sposób obliczyć poziom błędu, który jest prawidłowym oszacowaniem błędu testowego.

Zaletą stosowania tego podejścia do szacowania błędu testu jest to, że jest ono znacznie szybsze niż k-krotna walidacja krzyżowa , zwłaszcza gdy zbiór danych jest duży.

Zalety i wady losowych lasów

Lasy losowe mają następujące zalety :

  • W większości przypadków losowe lasy zapewnią poprawę dokładności w porównaniu z modelami workowymi, a zwłaszcza w przypadku pojedynczych drzew decyzyjnych.
  • Lasy losowe są odporne na wartości odstające.
  • Do korzystania z losowych lasów nie jest wymagane żadne wstępne przetwarzanie.

Lasy losowe mają jednak następujące potencjalne wady:

  • Są trudne do interpretacji.
  • Korzystanie z dużych zbiorów danych może wymagać dużej mocy obliczeniowej (tzn. powolnej).

W praktyce badacze danych zazwyczaj korzystają z lasów losowych, aby zmaksymalizować dokładność predykcyjną, więc fakt, że nie można ich łatwo zinterpretować, zwykle nie stanowi problemu.

Dodaj komentarz

Twój adres e-mail nie zostanie opublikowany. Wymagane pola są oznaczone *