Beste subsetselectie in machine learning (uitleg en voorbeelden)


Bij machinaal leren willen we vaak modellen bouwen met behulp van een reeks voorspellende variabelen en een responsvariabele . Ons doel is om een model te bouwen dat de voorspellende variabelen effectief kan gebruiken om de waarde van de responsvariabele te voorspellen.

Gegeven een reeks p totale voorspellende variabelen, zijn er veel modellen die we potentieel zouden kunnen bouwen. Eén methode die we kunnen gebruiken om het beste model te kiezen, staat bekend als de beste subsetselectie en werkt als volgt:

1. Laat M 0 het nulmodel zijn, dat geen voorspellende variabele bevat.

2. Voor k = 1, 2, … p:

  • Geschikt voor alle p C k -modellen die exact k voorspellers bevatten.
  • Kies de beste uit deze pCk- modellen en noem deze Mk . Definieer “beste” als het model met de hoogste R 2 of, op equivalente wijze, de laagste RSS.

3. Selecteer één enkel beste model uit M 0 … M p met behulp van kruisvalidatie-voorspellingsfouten, Cp, BIC, AIC of aangepaste R 2 .

Merk op dat er voor een reeks p- voorspellingsvariabelen twee p mogelijke modellen zijn.

Voorbeeld van het selecteren van de beste subset

Stel dat we een dataset hebben met p = 3 voorspellende variabelen en een responsvariabele, y. Om de beste subsetselectie uit te voeren met deze dataset, zouden we de volgende 2 p = 2 3 = 8 modellen passen:

  • Een model zonder voorspellers
  • Een model met voorspeller x 1
  • Een model met voorspeller x 2
  • Een model met voorspeller x 3
  • Een model met x 1 , x 2 voorspellers
  • Een model met voorspellers x 1 , x 3
  • Een model met x 2 , x 3 voorspellers
  • Een model met voorspellers x 1 , x 2 , x 3

Vervolgens zouden we uit elke set modellen met k- voorspellers het model met de hoogste R2 kiezen. We kunnen bijvoorbeeld kiezen voor:

  • Een model zonder voorspellers
  • Een model met voorspeller x 2
  • Een model met x 1 , x 2 voorspellers
  • Een model met voorspellers x 1 , x 2 , x 3

Vervolgens zouden we het beste model kruisvalideren en kiezen als het model dat resulteert in de laagste voorspellingsfout, Cp, BIC, AIC of aangepaste R2 .

We zouden bijvoorbeeld uiteindelijk het volgende model als het ‘beste’ model kunnen kiezen omdat het de laagste kruisgevalideerde voorspellingsfout opleverde:

  • Een model met x 1 , x 2 voorspellers

Criteria voor het kiezen van het “beste” model

De laatste stap bij het selecteren van de beste subset is het kiezen van het model met de laagste voorspellingsfout, de laagste Cp, de laagste BIC, de laagste AIC of de laagste aangepaste R2 . hoger.

Hier volgen de formules die worden gebruikt om elk van deze statistieken te berekenen:

Cp: (RSS+2dσ̂) / n

AIC: (RSS+2dσ̂ 2 ) / (nσ̂ 2 )

BIC: (RSS+log(n)dσ̂ 2 ) / n

R 2 aangepast: 1 – ( (RSS / (nd-1)) / (TSS / (n-1)) )

Goud:

  • d: Het aantal voorspellers
  • n: Totaal aantal waarnemingen
  • σ̂: schatting van de foutvariantie die is gekoppeld aan elke responsmaatstaf in een regressiemodel
  • RSS: Residuele som van kwadraten uit het regressiemodel
  • TSS: Totale som van kwadraten van het regressiemodel

Voor- en nadelen van de beste subsetselectie

Het selecteren van de beste subset biedt de volgende voordelen:

  • Het is een eenvoudige benadering om te begrijpen en te interpreteren.
  • Hierdoor kunnen we het best mogelijke model identificeren, omdat we alle combinaties van voorspellende variabelen in overweging nemen.

Deze methode heeft echter de volgende nadelen:

  • Dit kan rekenintensief zijn. Voor een set p- voorspellingsvariabelen zijn er twee p mogelijke modellen. Met 10 voorspellende variabelen zijn er bijvoorbeeld 2 10 = 1000 mogelijke modellen om te overwegen.
  • Omdat het een zeer groot aantal modellen in overweging neemt, kan het potentieel een model vinden dat goed presteert op basis van trainingsgegevens, maar niet op basis van toekomstige gegevens. Dit zou tot overfitting kunnen leiden .

Conclusie

Hoewel het selecteren van de beste subset eenvoudig te implementeren en te begrijpen is, kan het onpraktisch zijn als u werkt met een dataset die een groot aantal voorspellers bevat, en kan dit mogelijk tot overfitting leiden.

Een alternatief voor deze methode staat bekend als stapsgewijze selectie , wat rekentechnisch efficiënter is.

Einen Kommentar hinzufügen

Deine E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind mit * markiert