Eine einfache einführung in random forests
Wenn die Beziehung zwischen einer Reihe von Prädiktorvariablen und einer Antwortvariablen sehr komplex ist, verwenden wir häufig nichtlineare Methoden, um die Beziehung zwischen ihnen zu modellieren.
Eine dieser Methoden sind Klassifizierungs- und Regressionsbäume (oft als CART abgekürzt), die mithilfe einer Reihe von Prädiktorvariablen Entscheidungsbäume erstellen, die den Wert einer Antwortvariablen vorhersagen.
Der Vorteil von Entscheidungsbäumen besteht darin, dass sie einfach zu interpretieren und zu visualisieren sind. Das Problem besteht darin, dass sie tendenziell unter einer hohen Varianz leiden. Das heißt, wenn wir einen Datensatz in zwei Hälften aufteilen und einen Entscheidungsbaum auf beide Hälften anwenden, könnten die Ergebnisse sehr unterschiedlich ausfallen.
Eine Möglichkeit, die Varianz von Entscheidungsbäumen zu reduzieren, ist die Verwendung einer Methode namens Bagging , die wie folgt funktioniert:
1. Nehmen Sie b Bootstrapping-Beispiele aus dem Originaldatensatz.
2. Erstellen Sie einen Entscheidungsbaum für jedes Bootstrap-Beispiel.
3. Mitteln Sie die Vorhersagen jedes Baums, um ein endgültiges Modell zu erhalten.
Der Vorteil dieses Ansatzes besteht darin, dass ein Clustermodell im Allgemeinen eine Verbesserung der Testfehlerrate im Vergleich zu einem einzelnen Entscheidungsbaum bietet.
Der Nachteil besteht darin, dass Vorhersagen aus der Sammlung verpackter Bäume stark korrelieren können, wenn der Datensatz einen sehr starken Prädiktor enthält. In diesem Fall verwenden die meisten oder alle eingesackten Bäume diesen Prädiktor für die erste Aufteilung, was zu Bäumen führt, die einander ähnlich sind und stark korrelierte Vorhersagen aufweisen.
Wenn wir also die Vorhersagen jedes Baums mitteln, um zu einem endgültigen Modell zu gelangen, ist es möglich, dass dieses Modell die Varianz im Vergleich zu einem einzelnen Entscheidungsbaum nicht tatsächlich verringert.
Eine Möglichkeit, dieses Problem zu umgehen, ist die Verwendung einer Methode namens Random Forests .
Was sind Zufallswälder?
Ähnlich wie beim Bagging entnehmen Random Forests auch Bootstrapping- Stichproben aus einem Originaldatensatz.
Wenn jedoch für jede Bootstrap-Stichprobe ein Entscheidungsbaum erstellt wird, wird jedes Mal, wenn eine Aufteilung in einem Baum berücksichtigt wird, nur eine Zufallsstichprobe von m Prädiktoren als Kandidat für die Aufteilung auf den gesamten Satz von p Prädiktoren betrachtet.
Hier ist die vollständige Methode, mit der zufällige Wälder ein Modell erstellen:
1. Nehmen Sie b Bootstrapping-Beispiele aus dem Originaldatensatz.
2. Erstellen Sie einen Entscheidungsbaum für jedes Bootstrap-Beispiel.
- Bei der Erstellung des Baums wird jedes Mal, wenn eine Aufteilung in Betracht gezogen wird, nur eine Zufallsstichprobe von m Prädiktoren als Kandidaten für die Aufteilung aus dem gesamten Satz von p Prädiktoren betrachtet.
3. Mitteln Sie die Vorhersagen jedes Baums, um ein endgültiges Modell zu erhalten.
Mit dieser Methode wird die Sammlung von Bäumen in einem zufälligen Wald im Vergleich zu Bäumen, die durch Absacken erzeugt wurden, dekoriert .
Wenn wir also die durchschnittlichen Vorhersagen jedes Baums verwenden, um zu einem endgültigen Modell zu gelangen, weist dieses tendenziell eine geringere Variabilität auf und führt zu einer geringeren Testfehlerrate als ein verpacktes Modell.
Bei der Verwendung von Zufallswäldern betrachten wir im Allgemeinen die m = √ p- Prädiktoren jedes Mal als Aufteilungskandidaten, wenn wir einen Entscheidungsbaum aufteilen.
Wenn wir beispielsweise insgesamt p = 16 Prädiktoren in einem Datensatz haben, betrachten wir im Allgemeinen nur m = √16 = 4 Prädiktoren als potenzielle Kandidaten für jede Aufteilung.
Technischer Hinweis:
Wenn wir m = p wählen (dh wir betrachten alle Prädiktoren bei jeder Aufteilung als Kandidaten), ist dies interessanterweise einfach gleichbedeutend mit der Verwendung von Bagging.
Schätzung von Out-of-Bag-Fehlern
Ähnlich wie beim Bagging können wir den Testfehler eines Random-Forest-Modells mithilfe der Out-of-Bag-Schätzung berechnen.
Es kann gezeigt werden, dass jede Bootstrap-Stichprobe etwa 2/3 der Beobachtungen aus dem Originaldatensatz enthält. Das verbleibende Drittel der Beobachtungen, die nicht zur Anpassung an den Baum verwendet werden, werden als Out-of-Bag-Beobachtungen (OOB) bezeichnet.
Wir können den Wert der i-ten Beobachtung im Originaldatensatz vorhersagen, indem wir die durchschnittliche Vorhersage von jedem der Bäume nehmen, in denen diese Beobachtung OOB war.
Mit diesem Ansatz können wir eine Vorhersage für alle n Beobachtungen im Originaldatensatz treffen und so eine Fehlerrate berechnen, die eine gültige Schätzung des Testfehlers darstellt.
Der Vorteil dieses Ansatzes zur Schätzung von Testfehlern besteht darin, dass er viel schneller ist als die k-fache Kreuzvalidierung , insbesondere wenn der Datensatz groß ist.
Die Vor- und Nachteile von Random Forests
Zufällige Wälder bieten folgende Vorteile :
- In den meisten Fällen bieten Zufallswälder eine Verbesserung der Genauigkeit gegenüber verpackten Modellen und insbesondere gegenüber Einzelentscheidungsbäumen.
- Zufällige Wälder sind robust gegenüber Ausreißern.
- Für die Verwendung zufälliger Gesamtstrukturen ist keine Vorverarbeitung erforderlich.
Allerdings haben Random Forests die folgenden potenziellen Nachteile:
- Sie sind schwer zu interpretieren.
- Die Nutzung großer Datenmengen kann rechenintensiv (also langsam) sein.
In der Praxis verwenden Datenwissenschaftler in der Regel Zufallswälder, um die Vorhersagegenauigkeit zu maximieren. Daher stellt die Tatsache, dass sie nicht leicht zu interpretieren sind, normalerweise kein Problem dar.