Een inleiding tot gedeeltelijke kleinste kwadraten


Een van de meest voorkomende problemen die u tegenkomt bij machinaal leren is multicollineariteit . Dit gebeurt wanneer twee of meer voorspellende variabelen in een dataset sterk gecorreleerd zijn.

Wanneer dit gebeurt, kan een model mogelijk goed in een trainingsdataset passen, maar kan het slecht presteren op een nieuwe dataset die het nog nooit heeft gezien, omdat het de trainingsdataset te veel aanpast . trainingsset.

Eén manier om het probleem van multicollineariteit te omzeilen is het gebruik van regressie van hoofdcomponenten , waarbij M lineaire combinaties (zogenaamde „hoofdcomponenten“) van de oorspronkelijke p- voorspellingsvariabelen worden berekend en vervolgens de kleinste kwadratenmethode wordt gebruikt om een model van lineaire regressie te passen met behulp van hoofdcomponenten. componenten als voorspellers.

Het nadeel van hoofdcomponentenregressie (PCR) is dat er geen rekening wordt gehouden met de responsvariabele bij het berekenen van de hoofdcomponenten.

In plaats daarvan wordt alleen rekening gehouden met de omvang van de variantie tussen de voorspellende variabelen die door de hoofdcomponenten worden vastgelegd. Om deze reden is het mogelijk dat in sommige gevallen de hoofdcomponenten met de grootste afwijkingen de responsvariabele niet goed kunnen voorspellen.

Een techniek die verband houdt met PCR staat bekend als gedeeltelijke kleinste kwadraten . Net als bij PCR berekent Partiële kleinste kwadraten M lineaire combinaties („PLS-componenten“ genoemd) van de oorspronkelijke p- voorspellingsvariabelen en gebruikt de kleinste kwadratenmethode om een lineair regressiemodel te passen met behulp van de PLS-componenten als voorspellers.

Maar in tegenstelling tot PCR probeert de gedeeltelijke kleinste kwadraten lineaire combinaties te vinden die de variatie in zowel de responsvariabele als de voorspellende variabelen verklaren.

Stappen om gedeeltelijke kleinste kwadraten uit te voeren

In de praktijk worden de volgende stappen gebruikt om gedeeltelijke kleinste kwadraten uit te voeren.

1. Standaardiseer de gegevens zodanig dat alle voorspellende variabelen en de responsvariabele een gemiddelde van 0 en een standaarddeviatie van 1 hebben. Dit zorgt ervoor dat elke variabele op dezelfde schaal wordt gemeten.

2. Bereken Z 1 , … , Z M als de M lineaire combinaties van de oorspronkelijke p- voorspellers.

  • Zm = ΣΦ jm _ _
  • Om Z 1 te berekenen, stelt u Φ j1 gelijk aan de coëfficiënt van de eenvoudige lineaire regressie van Y op X. j is de lineaire combinatie van voorspellers die zoveel mogelijk variantie vastlegt.
  • Om Z 2 te berekenen, regressiet u elke variabele op Z 1 en neemt u de residuen. Bereken vervolgens Z 2 met behulp van deze orthogonale gegevens op precies dezelfde manier waarop Z 1 werd berekend.
  • Herhaal dit proces M keer om M PLS-componenten te verkrijgen.

3. Gebruik de kleinste kwadratenmethode om een lineair regressiemodel te fitten met behulp van de PLS-componenten Z 1 , … , Z M als voorspellers.

4. Gebruik ten slotte k-voudige kruisvalidatie om het optimale aantal PLS-componenten te vinden dat in het model moet worden behouden. Het ‘optimale’ aantal te behouden PLS-componenten is over het algemeen het getal dat de laagste test mean square error (MSE) oplevert.

Conclusie

In gevallen waarin multicollineariteit aanwezig is in een dataset, presteert gedeeltelijke kleinste kwadratenregressie doorgaans beter dan gewone kleinste kwadratenregressie. Het is echter een goed idee om verschillende modellen te gebruiken, zodat u kunt bepalen welk model het beste generaliseert naar ongeziene gegevens.

In de praktijk passen we veel verschillende soorten modellen (PLS, PCR , Ridge , Lasso , Multiple Linear Regression , enz.) toe aan een dataset en gebruiken we k-voudige kruisvalidatie om het model te identificeren dat de MSE-test het beste oplevert. lager op nieuwe gegevens. .

Einen Kommentar hinzufügen

Deine E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind mit * markiert