Lineaire regressie

In dit artikel wordt uitgelegd wat lineaire regressie is en waarvoor het in de statistiek wordt gebruikt. Bovendien kunt u zien hoe de twee soorten lineaire regressie worden berekend: eenvoudige lineaire regressie en meervoudige lineaire regressie.

Wat is lineaire regressie?

Lineaire regressie is een statistisch model dat een of meer onafhankelijke variabelen relateert aan een afhankelijke variabele. Simpel gezegd is lineaire regressie een techniek die wordt gebruikt om een vergelijking te vinden die de relatie tussen een of meer verklarende variabelen en een responsvariabele benadert.

De vergelijking y=2+5x 1 -3x 2 +8x 3 is bijvoorbeeld een lineair regressiemodel omdat het wiskundig drie onafhankelijke variabelen (x 1 , x 2 , x 3 ) in verband brengt met een afhankelijke variabele (y) en bovendien de relatie tussen de variabelen is lineair.

Soorten lineaire regressie

Er zijn twee soorten lineaire regressie :

  • Eenvoudige lineaire regressie : een enkele onafhankelijke variabele is gekoppeld aan een afhankelijke variabele. De vergelijking voor dit type lineair regressiemodel heeft daarom de vorm y=β 01 x 1 .
  • Meervoudige lineaire regressie : het regressiemodel heeft verschillende verklarende variabelen en een responsvariabele. Daarom heeft de vergelijking voor dit type lineair regressiemodel de vorm y=β 01 x 12 x 2 …+β m x m .

eenvoudige lineaire regressie

Eenvoudige lineaire regressie wordt gebruikt om één onafhankelijke variabele aan beide variabelen te relateren.

De vergelijking van een eenvoudig lineair regressiemodel is een rechte lijn en bestaat daarom uit twee coëfficiënten: de constante van de vergelijking (β 0 ) en de correlatiecoëfficiënt tussen de twee variabelen (β 1 ). Daarom is de vergelijking voor een eenvoudig lineair regressiemodel y=β 01 x.

y=\beta_0+\beta_1x

De formules voor het berekenen van eenvoudige lineaire regressiecoëfficiënten zijn als volgt:

\begin{array}{c}\beta_1=\cfrac{\displaystyle \sum_{i=1}^n (x_i-\overline{x})(y_i-\overline{y})}{\displaystyle \sum_{i=1}^n (x_i-\overline{x})^2}\\[12ex]\beta_0=\overline{y}-\beta_1\overline{x}\end{array}

Goud:

  • \beta_0

    is de constante van de regressielijn.

  • \beta_1

    is de helling van de regressielijn.

  • x_i

    is de waarde van de onafhankelijke variabele X van gegevens i.

  • y_i

    is de waarde van de afhankelijke variabele Y van gegevens i.

  • \overline{x}

    is het gemiddelde van de waarden van de onafhankelijke variabele

  • \overline{y}

    is het gemiddelde van de waarden van de afhankelijke variabele Y.

Meerdere lineaire regressie

In een meervoudig lineair regressiemodel worden ten minste twee onafhankelijke variabelen opgenomen. Met andere woorden, meervoudige lineaire regressie maakt het mogelijk dat verschillende verklarende variabelen lineair aan een responsvariabele worden gekoppeld.

De vergelijking voor een meervoudig lineair regressiemodel is y=β 01 x 12 x 2 +…+β m x m +ε.

y=\beta_0+\beta_1 x_1+\beta_2 x_2+\dots+\beta_m x_m+\varepsilon

Goud:

  • y

    is de afhankelijke variabele.

  • x_i

    is de onafhankelijke variabele i.

  • \beta_0

    is de constante van de meervoudige lineaire regressievergelijking.

  • \beta_i

    is de regressiecoëfficiënt die aan de variabele is gekoppeld

    x_i

    .

  • \bm{\varepsilon}

    is de fout of het residu, dat wil zeggen het verschil tussen de waargenomen waarde en de door het model geschatte waarde.

  • m

    is het totale aantal variabelen in het model.

Dus als we een monster hebben met een totaal van

n

observaties kunnen we het meervoudige lineaire regressiemodel in matrixvorm opstellen:

\begin{pmatrix}y_1\\y_2\\\vdots\\y_n\end{pmatrix}=\begin{pmatrix}1&x_{11}&\dots&x_{1m}\\1&x_{21}&\dots&x_{2m}\\ \vdots&\vdots&\ddots&\vdots\\1&x_{n1}&\dots&x_{nm}\end{pmatrix}\cdot\begin{pmatrix}\beta_0\\\beta_1\\\vdots\\\beta_m\end{pmatrix}+\begin{pmatrix}\varepsilon_1\\\varepsilon_2\\\vdots\\\varepsilon_n\end{pmatrix}

De bovenstaande matrixuitdrukking kan worden herschreven door aan elke matrix een letter toe te wijzen:

Y=X\beta+\varepsilon

Door het kleinste kwadratencriterium toe te passen, kunnen we dus tot de formule komen om de coëfficiënten van een meervoudig lineair regressiemodel te schatten :

\widehat{\beta}=\left(X^tX\right)^{-1}X^tY

De toepassing van deze formule is echter zeer bewerkelijk en tijdrovend. Daarom wordt in de praktijk aanbevolen om computersoftware (zoals Minitab of Excel) te gebruiken waarmee u veel sneller een meervoudig regressiemodel kunt maken.

Lineaire regressieaannames

In een lineair regressiemodel moet aan de volgende voorwaarden worden voldaan om het model geldig te laten zijn:

  • Onafhankelijkheid : De residuen moeten onafhankelijk van elkaar zijn. Een gebruikelijke manier om de onafhankelijkheid van het model te garanderen, is door willekeur aan het steekproefproces toe te voegen.
  • Homoscedasticiteit : Er moet homogeniteit zijn in de varianties van de residuen, dat wil zeggen dat de variabiliteit van de residuen constant moet zijn.
  • Niet-multicollineariteit : de verklarende variabelen die in het model zijn opgenomen, kunnen niet aan elkaar worden gekoppeld, of hun relatie moet op zijn minst zeer zwak zijn.
  • Normaliteit : De residuen moeten normaal verdeeld zijn, of met andere woorden, ze moeten een normale verdeling volgen met een gemiddelde van 0.
  • Lineariteit : er wordt aangenomen dat de relatie tussen de responsvariabele en de verklarende variabelen lineair is.

Waar wordt lineaire regressie voor gebruikt?

Lineaire regressie heeft in principe twee toepassingen: lineaire regressie wordt gebruikt om de relatie tussen de verklarende variabelen en de responsvariabele te verklaren, en op vergelijkbare wijze wordt lineaire regressie gebruikt om de waarde van de afhankelijke variabele voor een nieuwe waarneming te voorspellen.

Door de vergelijking van het lineaire regressiemodel te verkrijgen, kunnen we weten welk type relatie er bestaat tussen de variabelen in het model. Als de regressiecoëfficiënt van een onafhankelijke variabele positief is, zal de afhankelijke variabele toenemen wanneer deze toeneemt. terwijl als de regressiecoëfficiënt van een onafhankelijke variabele negatief is, de afhankelijke variabele zal afnemen als deze toeneemt.

Aan de andere kant maakt de vergelijking berekend in lineaire regressie het ook mogelijk om waardevoorspellingen te doen. Door de waarden van de verklarende variabelen in de modelvergelijking te introduceren, kunnen we dus de waarde van de afhankelijke variabele voor een nieuw stuk gegevens berekenen.

Einen Kommentar hinzufügen

Deine E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind mit * markiert