Wat is gefaseerde selectie? (uitleg & voorbeelden)


Op het gebied van machine learning is het ons doel om een model te creëren dat effectief een reeks voorspellende variabelen kan gebruiken om de waarde van een responsvariabele te voorspellen.

Gegeven een reeks p totale voorspellende variabelen, zijn er veel modellen die we potentieel zouden kunnen bouwen. Eén methode die we kunnen gebruiken om het beste model te selecteren, staat bekend als best subset-selectie , waarbij wordt geprobeerd het beste model te kiezen uit alle mogelijke modellen die met de set voorspellers kunnen worden gebouwd.

Helaas heeft deze methode twee nadelen:

  • Dit kan rekenintensief zijn. Voor een set p- voorspellingsvariabelen zijn er twee p mogelijke modellen. Met 10 voorspellende variabelen zijn er bijvoorbeeld 2 10 = 1000 mogelijke modellen om te overwegen.
  • Omdat het een zeer groot aantal modellen in overweging neemt, kan het potentieel een model vinden dat goed presteert op basis van trainingsgegevens, maar niet op basis van toekomstige gegevens. Dit zou tot overfitting kunnen leiden.

Een alternatief voor het selecteren van de beste subset staat bekend als stapsgewijze selectie , waarbij een veel kleinere set modellen wordt vergeleken.

Er zijn twee soorten stapselectiemethoden: voorwaartse stapselectie en achterwaartse stapselectie.

Stap voor stap vooruit selecteren

Stapsgewijze voorwaartse selectie werkt als volgt:

1. Laat M 0 het nulmodel zijn, dat geen voorspellende variabele bevat.

2. Voor k = 0, 2, … p-1:

  • Voorzie alle pk-modellen die de voorspellers in M k vergroten met een extra voorspellervariabele.
  • Kies uit deze pk-modellen de beste en noem deze M k+1 . Definieer “beste” als het model met de hoogste R 2 of, op equivalente wijze, de laagste RSS.

3. Selecteer één enkel beste model uit M 0 … M p met behulp van kruisvalidatie-voorspellingsfouten, Cp, BIC, AIC of aangepaste R 2 .

Stap-voor-stap achterwaartse selectie

Achterwaartse stapselectie werkt als volgt:

1. Laat M p het volledige model zijn, dat alle p voorspellende variabelen bevat.

2. Voor k = p, p-1, … 1:

  • Pas alle k-modellen toe die op één na alle voorspellers in Mk bevatten, voor een totaal van k-1 voorspellervariabelen.
  • Kies de beste uit deze k-modellen en noem deze M k-1 . Definieer “beste” als het model met de hoogste R 2 of, op equivalente wijze, de laagste RSS.

3. Selecteer één enkel beste model uit M 0 … M p met behulp van kruisvalidatie-voorspellingsfouten, Cp, BIC, AIC of aangepaste R 2 .

Criteria voor het kiezen van het “beste” model

De laatste stap van de stapsgewijze voorwaartse en achterwaartse selectie is het kiezen van het model met de laagste voorspellingsfout, de laagste Cp, de laagste BIC, de hoogste AIC laag of de hoogste aangepaste R2 .

Hier volgen de formules die worden gebruikt om elk van deze statistieken te berekenen:

Cp: (RSS+2dσ̂) / n

AIC: (RSS+2dσ̂ 2 ) / (nσ̂ 2 )

BIC: (RSS+log(n)dσ̂ 2 ) / n

R 2 aangepast: 1 – ( (RSS / (nd-1)) / (TSS / (n-1)) )

Goud:

  • d: Het aantal voorspellers
  • n: Totaal aantal waarnemingen
  • σ̂: schatting van de foutvariantie die is gekoppeld aan elke responsmaatstaf in een regressiemodel
  • RSS: Residuele som van kwadraten uit het regressiemodel
  • TSS: Totale som van kwadraten van het regressiemodel

Voor- en nadelen van gefaseerde selectie

Gefaseerde selectie biedt de volgende voordelen :

Deze methode is rekentechnisch efficiënter dan het selecteren van de beste subset. Gegeven p- voorspellingsvariabelen moet de selectie van de beste subset overeenkomen met 2p- modellen.

Omgekeerd zou stapsgewijze selectie alleen geschikt moeten zijn voor 1+p(p+ 1)/2-modellen. Voor p = 10 voorspellende variabelen zou de beste subsetselectie in 1000 modellen moeten passen, terwijl stapsgewijze selectie slechts in 56 modellen zou moeten passen.

Gefaseerde selectie heeft echter het volgende potentiële nadeel:

Het is niet gegarandeerd dat u tussen alle potentiële 2p- modellen het best mogelijke model zult vinden.

Stel dat we een dataset hebben met p = 3 voorspellers. Het best mogelijke model met één voorspeller kan x 1 bevatten en het best mogelijke model met twee voorspellers kan in plaats daarvan x 1 en x 2 bevatten.

In dit geval zal de voorwaartse stapsgewijze selectie er niet in slagen het best mogelijke model met twee voorspellers te selecteren, omdat M 1 x 1 zal bevatten, dus M 2 moet ook x 1 bevatten, evenals een andere variabele.

Einen Kommentar hinzufügen

Deine E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind mit * markiert