Lineaire regressie
In dit artikel wordt uitgelegd wat lineaire regressie is en waarvoor het in de statistiek wordt gebruikt. Bovendien kunt u zien hoe de twee soorten lineaire regressie worden berekend: eenvoudige lineaire regressie en meervoudige lineaire regressie.
Wat is lineaire regressie?
Lineaire regressie is een statistisch model dat een of meer onafhankelijke variabelen relateert aan een afhankelijke variabele. Simpel gezegd is lineaire regressie een techniek die wordt gebruikt om een vergelijking te vinden die de relatie tussen een of meer verklarende variabelen en een responsvariabele benadert.
De vergelijking y=2+5x 1 -3x 2 +8x 3 is bijvoorbeeld een lineair regressiemodel omdat het wiskundig drie onafhankelijke variabelen (x 1 , x 2 , x 3 ) in verband brengt met een afhankelijke variabele (y) en bovendien de relatie tussen de variabelen is lineair.
Soorten lineaire regressie
Er zijn twee soorten lineaire regressie :
- Eenvoudige lineaire regressie : een enkele onafhankelijke variabele is gekoppeld aan een afhankelijke variabele. De vergelijking voor dit type lineair regressiemodel heeft daarom de vorm y=β 0 +β 1 x 1 .
- Meervoudige lineaire regressie : het regressiemodel heeft verschillende verklarende variabelen en een responsvariabele. Daarom heeft de vergelijking voor dit type lineair regressiemodel de vorm y=β 0 +β 1 x 1 +β 2 x 2 …+β m x m .
eenvoudige lineaire regressie
Eenvoudige lineaire regressie wordt gebruikt om één onafhankelijke variabele aan beide variabelen te relateren.
De vergelijking van een eenvoudig lineair regressiemodel is een rechte lijn en bestaat daarom uit twee coëfficiënten: de constante van de vergelijking (β 0 ) en de correlatiecoëfficiënt tussen de twee variabelen (β 1 ). Daarom is de vergelijking voor een eenvoudig lineair regressiemodel y=β 0 +β 1 x.
De formules voor het berekenen van eenvoudige lineaire regressiecoëfficiënten zijn als volgt:
Goud:
-
is de constante van de regressielijn.
-
is de helling van de regressielijn.
-
is de waarde van de onafhankelijke variabele X van gegevens i.
-
is de waarde van de afhankelijke variabele Y van gegevens i.
-
is het gemiddelde van de waarden van de onafhankelijke variabele
-
is het gemiddelde van de waarden van de afhankelijke variabele Y.
Meerdere lineaire regressie
In een meervoudig lineair regressiemodel worden ten minste twee onafhankelijke variabelen opgenomen. Met andere woorden, meervoudige lineaire regressie maakt het mogelijk dat verschillende verklarende variabelen lineair aan een responsvariabele worden gekoppeld.
De vergelijking voor een meervoudig lineair regressiemodel is y=β 0 +β 1 x 1 +β 2 x 2 +…+β m x m +ε.
Goud:
-
is de afhankelijke variabele.
-
is de onafhankelijke variabele i.
-
is de constante van de meervoudige lineaire regressievergelijking.
-
is de regressiecoëfficiënt die aan de variabele is gekoppeld
.
-
is de fout of het residu, dat wil zeggen het verschil tussen de waargenomen waarde en de door het model geschatte waarde.
-
is het totale aantal variabelen in het model.
Dus als we een monster hebben met een totaal van
observaties kunnen we het meervoudige lineaire regressiemodel in matrixvorm opstellen:
De bovenstaande matrixuitdrukking kan worden herschreven door aan elke matrix een letter toe te wijzen:
Door het kleinste kwadratencriterium toe te passen, kunnen we dus tot de formule komen om de coëfficiënten van een meervoudig lineair regressiemodel te schatten :
De toepassing van deze formule is echter zeer bewerkelijk en tijdrovend. Daarom wordt in de praktijk aanbevolen om computersoftware (zoals Minitab of Excel) te gebruiken waarmee u veel sneller een meervoudig regressiemodel kunt maken.
Lineaire regressieaannames
In een lineair regressiemodel moet aan de volgende voorwaarden worden voldaan om het model geldig te laten zijn:
- Onafhankelijkheid : De residuen moeten onafhankelijk van elkaar zijn. Een gebruikelijke manier om de onafhankelijkheid van het model te garanderen, is door willekeur aan het steekproefproces toe te voegen.
- Homoscedasticiteit : Er moet homogeniteit zijn in de varianties van de residuen, dat wil zeggen dat de variabiliteit van de residuen constant moet zijn.
- Niet-multicollineariteit : de verklarende variabelen die in het model zijn opgenomen, kunnen niet aan elkaar worden gekoppeld, of hun relatie moet op zijn minst zeer zwak zijn.
- Normaliteit : De residuen moeten normaal verdeeld zijn, of met andere woorden, ze moeten een normale verdeling volgen met een gemiddelde van 0.
- Lineariteit : er wordt aangenomen dat de relatie tussen de responsvariabele en de verklarende variabelen lineair is.
Waar wordt lineaire regressie voor gebruikt?
Lineaire regressie heeft in principe twee toepassingen: lineaire regressie wordt gebruikt om de relatie tussen de verklarende variabelen en de responsvariabele te verklaren, en op vergelijkbare wijze wordt lineaire regressie gebruikt om de waarde van de afhankelijke variabele voor een nieuwe waarneming te voorspellen.
Door de vergelijking van het lineaire regressiemodel te verkrijgen, kunnen we weten welk type relatie er bestaat tussen de variabelen in het model. Als de regressiecoëfficiënt van een onafhankelijke variabele positief is, zal de afhankelijke variabele toenemen wanneer deze toeneemt. terwijl als de regressiecoëfficiënt van een onafhankelijke variabele negatief is, de afhankelijke variabele zal afnemen als deze toeneemt.
Aan de andere kant maakt de vergelijking berekend in lineaire regressie het ook mogelijk om waardevoorspellingen te doen. Door de waarden van de verklarende variabelen in de modelvergelijking te introduceren, kunnen we dus de waarde van de afhankelijke variabele voor een nieuw stuk gegevens berekenen.