Een eenvoudige introductie tot willekeurige bossen


Wanneer de relatie tussen een reeks voorspellende variabelen en een responsvariabele erg complex is, gebruiken we vaak niet-lineaire methoden om de relatie daartussen te modelleren.

Eén van die methoden zijn classificatie- en regressiebomen (vaak afgekort CART), die een reeks voorspellende variabelen gebruiken om beslissingsbomen te creëren die de waarde van een responsvariabele voorspellen.

Voorbeeld van een regressieboom die jaren ervaring en gemiddelde homeruns gebruikt om het salaris van een professionele honkbalspeler te voorspellen.

Het voordeel van beslisbomen is dat ze gemakkelijk te interpreteren en visualiseren zijn. Het probleem is dat ze vaak last hebben van hoge variantie . Dat wil zeggen: als we een dataset in twee helften splitsen en op beide helften een beslisboom toepassen, kunnen de resultaten heel verschillend zijn.

Eén manier om de variantie van beslissingsbomen te verkleinen is door een methode te gebruiken die bekend staat als bagging en die als volgt werkt:

1. Neem b- bootstrapped samples uit de originele dataset.

2. Maak een beslissingsboom voor elk bootstrap-voorbeeld.

3. Gemiddelde van de voorspellingen van elke boom om een definitief model te verkrijgen.

Het voordeel van deze aanpak is dat een geclusterd model over het algemeen een verbetering van het testfoutenpercentage oplevert in vergelijking met een enkele beslissingsboom.

Het nadeel is dat voorspellingen uit het verzamelen van bomen in zakken sterk gecorreleerd kunnen zijn als er een zeer sterke voorspeller in de dataset zit. In dit geval zullen de meeste of alle bomen in zakken deze voorspeller gebruiken voor de eerste splitsing, wat resulteert in bomen die op elkaar lijken en sterk gecorreleerde voorspellingen hebben.

Dus wanneer we de voorspellingen van elke boom middelen om tot een definitief model te komen, is het mogelijk dat dit model de variantie niet daadwerkelijk verkleint vergeleken met een enkele beslissingsboom.

Eén manier om dit probleem te omzeilen is het gebruik van een methode die bekend staat als willekeurige bossen .

Wat zijn willekeurige bossen?

Net als bij het in zakken doen, nemen willekeurige forests ook bootstrapped steekproeven uit een originele dataset.

Bij het construeren van een beslissingsboom voor elke bootstrap-steekproef wordt echter telkens wanneer een splitsing in een boom wordt overwogen, slechts een willekeurige steekproef van m voorspellers beschouwd als een kandidaat voor splitsing over de volledige set van p voorspellers.

Hier is dus de volledige methode die willekeurige forests gebruiken om een model te maken:

1. Neem b- bootstrapped samples uit de originele dataset.

2. Maak een beslissingsboom voor elk bootstrap-voorbeeld.

  • Bij het construeren van de boom wordt elke keer dat een splitsing wordt overwogen, slechts een willekeurige steekproef van m- voorspellers beschouwd als kandidaten voor splitsing uit de volledige set van p- voorspellers.

3. Gemiddelde van de voorspellingen van elke boom om een definitief model te verkrijgen.

Met behulp van deze methode wordt de verzameling bomen in een willekeurig bos versierd met betrekking tot bomen die zijn geproduceerd door het in zakken doen.

Dus als we de gemiddelde voorspellingen van elke boom nemen om tot een definitief model te komen, heeft dit doorgaans minder variabiliteit en resulteert het in een lager testfoutenpercentage dan een model met zakken.

Wanneer we willekeurige forests gebruiken, beschouwen we de m = √ p -voorspellers over het algemeen als gesplitste kandidaten telkens wanneer we een beslissingsboom splitsen.

Als we bijvoorbeeld in totaal p = 16 voorspellers in een dataset hebben, beschouwen we over het algemeen alleen m = √16 = 4 voorspellers als potentiële kandidaten voor elke splitsing.

Technische notitie:

Interessant is dat als we m = p kiezen (dwz we beschouwen alle voorspellers als kandidaten bij elke splitsing), dit simpelweg gelijk staat aan het gebruik van ‚bagging‘.

Schatting van out-of-bag-fouten

Net als bij het in zakken doen, kunnen we de testfout van een willekeurig bosmodel berekenen met behulp van een out-of-bag-schatting .

Er kan worden aangetoond dat elk bootstrap-monster ongeveer 2/3 van de waarnemingen uit de oorspronkelijke dataset bevat. Het resterende derde deel van de waarnemingen die niet in de boom passen, worden out-of-bag (OOB) waarnemingen genoemd.

We kunnen de waarde van de i-de waarneming in de oorspronkelijke dataset voorspellen door de gemiddelde voorspelling te nemen van elk van de bomen waarin die waarneming OOB was.

We kunnen deze aanpak gebruiken om een voorspelling te doen voor alle n waarnemingen in de originele dataset en zo een foutenpercentage te berekenen, wat een geldige schatting is van de testfout.

Het voordeel van het gebruik van deze aanpak om de testfout te schatten is dat deze veel sneller is dan k-voudige kruisvalidatie , vooral als de dataset groot is.

De voor- en nadelen van willekeurige bossen

Willekeurige bossen bieden de volgende voordelen :

  • In de meeste gevallen zullen willekeurige forests een verbetering van de nauwkeurigheid bieden ten opzichte van modellen in zakken en vooral ten opzichte van afzonderlijke beslissingsbomen.
  • Willekeurige bossen zijn robuust tegen uitschieters.
  • Er is geen voorbewerking vereist om willekeurige forests te gebruiken.

Willekeurige bossen hebben echter de volgende potentiële nadelen:

  • Ze zijn moeilijk te interpreteren.
  • Ze kunnen rekenintensief (dat wil zeggen langzaam) zijn om grote datasets te kunnen gebruiken.

In de praktijk gebruiken datawetenschappers doorgaans willekeurige forests om de voorspellende nauwkeurigheid te maximaliseren, dus het feit dat ze niet gemakkelijk interpreteerbaar zijn, is meestal geen probleem.

Einen Kommentar hinzufügen

Deine E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind mit * markiert