7 veel voorkomende soorten regressie (en wanneer u ze moet gebruiken)
Regressieanalyse is een van de meest gebruikte technieken in de statistiek.
Het fundamentele doel van regressieanalyse is het passend maken van een model dat de relatie tussen een of meer voorspellende variabelen en eenresponsvariabele het beste beschrijft.
In dit artikel delen we de zeven meest gebruikte regressiemodellen in het echte leven, samen met wanneer elk type regressie moet worden gebruikt.
1. Lineaire regressie
Lineaire regressie wordt gebruikt om een regressiemodel te fitten dat de relatie beschrijft tussen een of meer voorspellende variabelen en een numerieke responsvariabele.
Gebruik wanneer:
- De relatie tussen de voorspellende variabele(n) en de responsvariabele is redelijk lineair.
- De responsvariabele is een continue numerieke variabele.
Voorbeeld: Een detailhandelsbedrijf kan een lineair regressiemodel toepassen door advertentie-uitgaven te gebruiken om de totale omzet te voorspellen.
Omdat de relatie tussen deze twee variabelen waarschijnlijk lineair is (meer geld dat aan reclame wordt besteed resulteert doorgaans in meer omzet) en de responsvariabele (totale omzet) een continue numerieke variabele is, is het zinvol om een lineair regressiemodel aan te passen.
Bron: een inleiding tot meervoudige lineaire regressie
2. Logistieke regressie
Logistische regressie wordt gebruikt om een regressiemodel te fitten dat de relatie beschrijft tussen een of meer voorspellende variabelen en een binaire responsvariabele.
Gebruik wanneer:
- De responsvariabele is binair: deze kan slechts twee waarden aannemen.
Voorbeeld: Medische onderzoekers kunnen een logistisch regressiemodel toepassen met behulp van lichaamsbeweging en rookgewoonten om de waarschijnlijkheid te voorspellen dat een individu een hartaanval krijgt.
Omdat de responsvariabele (hartaanval) binair is – een individu ervaart een hartaanval of niet – is het passend om een logistisch regressiemodel te gebruiken.
Hulpbron: een inleiding tot logistieke regressie
3. Polynomiale regressie
Polynomiale regressie wordt gebruikt om een regressiemodel te fitten dat de relatie beschrijft tussen een of meer voorspellende variabelen en een numerieke responsvariabele.
Gebruik wanneer:
- De relatie tussen de voorspellende variabele(n) en de responsvariabele is niet-lineair.
- De responsvariabele is een continue numerieke variabele.
Voorbeeld: Psychologen kunnen een polynomiale regressie toepassen met behulp van ‚gewerkte uren‘ om het ‚algemene geluk‘ van werknemers in een bepaalde sector te voorspellen.
De relatie tussen deze twee variabelen is waarschijnlijk niet-lineair. Dat wil zeggen: naarmate het aantal uren toeneemt, kan een individu een groter geluk melden, maar boven een bepaald aantal gewerkte uren zal het algehele geluk waarschijnlijk afnemen. Omdat deze relatie tussen de voorspellende variabele en de responsvariabele niet-lineair is, is het zinvol om een polynoom regressiemodel te gebruiken.
Bron: een inleiding tot polynomiale regressie
4. Ridge-regressie
Ridge-regressie wordt gebruikt om een regressiemodel te fitten dat de relatie beschrijft tussen een of meer voorspellende variabelen en een numerieke responsvariabele.
Gebruik wanneer:
- Predictorvariabelen zijn sterk gecorreleerd en multicollineariteit wordt een probleem.
- De responsvariabele is een continue numerieke variabele.
Voorbeeld: Een basketbaldatawetenschapper kan een nokregressiemodel toepassen met behulp van voorspellende variabelen zoals punten, assists en rebounds om de salarissen van spelers te voorspellen.
Voorspellende variabelen zijn waarschijnlijk sterk gecorreleerd, aangezien betere spelers doorgaans meer punten, assists en rebounds hebben. Multicollineariteit is dus waarschijnlijk een probleem, dus we kunnen dit probleem minimaliseren door gebruik te maken van nokregressie.
Bron: een inleiding tot Ridge-regressie
5. Lasso-regressie
Lasso-regressie lijkt sterk op Ridge-regressie en wordt gebruikt om een regressiemodel te passen dat de relatie beschrijft tussen een of meer voorspellende variabelen en een numerieke responsvariabele.
Gebruik wanneer:
- Predictorvariabelen zijn sterk gecorreleerd en multicollineariteit wordt een probleem.
- De responsvariabele is een continue numerieke variabele.
Voorbeeld: Een econoom zou een lasso-regressiemodel kunnen toepassen met behulp van voorspellende variabelen zoals het totale aantal scholingsjaren, het aantal gewerkte uren en de kosten van levensonderhoud om het gezinsinkomen te voorspellen.
De voorspellende variabelen zijn waarschijnlijk sterk gecorreleerd, aangezien hoger opgeleide individuen ook de neiging hebben om in steden te wonen met hogere kosten van levensonderhoud en meer uren te werken. Multicollineariteit is dus waarschijnlijk een probleem, dus we kunnen dit probleem minimaliseren door lasso-regressie te gebruiken.
Merk op dat Lasso-regressie en Ridge-regressie behoorlijk op elkaar lijken. Wanneer multicollineariteit een probleem is in een dataset, wordt aanbevolen om zowel een Lasso- als een Ridge-regressiemodel te gebruiken om te zien welk model het beste werkt.
Bron: Een inleiding tot Lasso-regressie
6. Poisson-regressie
Poisson-regressie wordt gebruikt om een regressiemodel te fitten dat de relatie beschrijft tussen een of meer voorspellende variabelen en een responsvariabele.
Gebruik wanneer:
- De responsvariabele bestaat uit ‘tel’-gegevens – bijvoorbeeld het aantal zonnige dagen per week, het aantal verkeersongevallen per jaar, het aantal telefoongesprekken per dag, enz.
Voorbeeld: Een universiteit kan Poisson-regressie gebruiken om het aantal studenten te onderzoeken dat afstudeert aan een specifiek hogeschoolprogramma op basis van hun GPA toen ze aan het programma begonnen en hun geslacht.
In dit geval is het passend om Poisson-regressie te gebruiken, aangezien de responsvariabele telgegevens is (we kunnen het aantal afstuderende studenten “tellen” – 200, 250, 300, 413, enz.).
Bron: Een inleiding tot Poisson-regressie
7. Kwantielregressie
Kwantielregressie wordt gebruikt om een regressiemodel te fitten dat de relatie beschrijft tussen een of meer voorspellende variabelen en een responsvariabele.
Gebruik wanneer:
- We willen graag een specifiek kwantiel of percentiel van de responsvariabele schatten – bijvoorbeeld het 90e percentiel, 95e percentiel, enz.
Voorbeeld: Een professor kan kwantielregressie gebruiken om het verwachte 90e percentiel van examenscores te voorspellen op basis van het aantal bestudeerde uren:
Omdat de professor in dit geval een specifiek percentiel van de responsvariabele (examenscores) wil voorspellen, is het passend om kwantielregressie te gebruiken.
Bron: een inleiding tot kwantielregressie
Aanvullende bronnen
4 voorbeelden van het gebruik van lineaire regressie in het echte leven
4 voorbeelden van het gebruik van logistieke regressie in het echte leven
ANOVA versus regressie: wat is het verschil?
De complete gids: regressieresultaten rapporteren