Regressie analyse

In dit artikel wordt uitgelegd wat regressieanalyse is en waarvoor het in de statistiek wordt gebruikt. Bovendien kunt u zien wat de verschillende soorten regressieanalyses zijn.

Wat is regressieanalyse?

In de statistiek is regressieanalyse een proces waarbij de relatie tussen twee of meer variabelen wordt bestudeerd. Meer specifiek omvat regressieanalyse het berekenen van een vergelijking die de variabelen in het onderzoek wiskundig met elkaar in verband brengt.

Het model dat in een regressieanalyse is ingebouwd, wordt een regressiemodel genoemd, terwijl de vergelijking die de bestudeerde variabelen met elkaar in verband brengt een regressievergelijking wordt genoemd.

Als u bijvoorbeeld de relatie tussen de inflatie van een land en het bbp wilt bestuderen, kunt u een regressieanalyse uitvoeren om de relatie tussen de twee variabelen te analyseren. In dit geval zou de uit de regressieanalyse verkregen vergelijking een regressielijn zijn.

regressie analyse

Een regressieanalyse bestaat dus uit het verzamelen van een steekproef van gegevens en uit de verzamelde gegevens wordt een vergelijking berekend waarmee de bestudeerde variabelen wiskundig met elkaar in verband kunnen worden gebracht.

Bij regressieanalyses is het belangrijk om onderscheid te maken tussen de twee soorten variabelen die in het regressiemodel kunnen worden opgenomen:

  • Afhankelijke variabele (of responsvariabele) : dit is de factor die we willen analyseren, dus er zal een regressiemodel worden gebouwd om te zien hoe de waarde van deze variabele varieert afhankelijk van de waarde van andere variabelen.
  • Onafhankelijke variabele (of verklarende variabele) : het is een factor waarvan we denken dat deze van invloed is op de variabele die we willen analyseren. Dat wil zeggen dat de waarde van de onafhankelijke variabele de waarde van de afhankelijke variabele beïnvloedt.

Soorten regressieanalyse

In principe zijn er drie soorten regressieanalyses :

  • Eenvoudige lineaire regressieanalyse : het regressiemodel heeft een onafhankelijke variabele en een afhankelijke variabele en deze zijn lineair gerelateerd.
  • Meervoudige lineaire regressieanalyse : twee of meer onafhankelijke variabelen zijn lineair gerelateerd aan een afhankelijke variabele.
  • Niet-lineaire regressieanalyse : De relatie tussen de onafhankelijke variabele en de afhankelijke variabele wordt gemodelleerd met behulp van een niet-lineaire functie.

Eenvoudige lineaire regressieanalyse

Eenvoudige lineaire regressie wordt gebruikt om een onafhankelijke variabele aan beide variabelen te relateren met behulp van een lineaire vergelijking.

De vergelijking van een eenvoudig lineair regressiemodel is een rechte lijn en bestaat daarom uit twee coëfficiënten: de constante van de vergelijking (β 0 ) en de correlatiecoëfficiënt tussen de twee variabelen (β 1 ). Daarom is de vergelijking voor een eenvoudig lineair regressiemodel y=β 01 x.

y=\beta_0+\beta_1x

De formules voor het berekenen van de coëfficiënten van eenvoudige lineaire regressie zijn als volgt:

\begin{array}{c}\beta_1=\cfrac{\displaystyle \sum_{i=1}^n (x_i-\overline{x})(y_i-\overline{y})}{\displaystyle \sum_{i=1}^n (x_i-\overline{x})^2}\\[12ex]\beta_0=\overline{y}-\beta_1\overline{x}\end{array}

Goud:

  • \beta_0

    is de constante van de regressielijn.

  • \beta_1

    is de helling van de regressielijn.

  • x_i

    is de waarde van de onafhankelijke variabele X van gegevens i.

  • y_i

    is de waarde van de afhankelijke variabele Y van gegevens i.

  • \overline{x}

    is het gemiddelde van de waarden van de onafhankelijke variabele

  • \overline{y}

    is het gemiddelde van de waarden van de afhankelijke variabele Y.

Meervoudige lineaire regressieanalyse

In een meervoudig lineair regressiemodel worden ten minste twee onafhankelijke variabelen opgenomen. Met andere woorden, meervoudige lineaire regressie maakt het mogelijk dat verschillende verklarende variabelen lineair aan een responsvariabele worden gekoppeld. Daarom is de vergelijking voor een meervoudig lineair regressiemodel:

y=\beta_0+\beta_1 x_1+\beta_2 x_2+\dots+\beta_m x_m+\varepsilon

Goud:

  • y

    is de afhankelijke variabele.

  • x_i

    is de onafhankelijke variabele i.

  • \beta_0

    is de constante van de meervoudige lineaire regressievergelijking.

  • \beta_i

    is de regressiecoëfficiënt die aan de variabele is gekoppeld

    x_i

    .

  • \bm{\varepsilon}

    is de fout of het residu, dat wil zeggen het verschil tussen de waargenomen waarde en de door het model geschatte waarde.

  • m

    is het totale aantal variabelen in het model.

Dus als we een monster hebben met een totaal van

n

observaties kunnen we het meervoudige lineaire regressiemodel in matrixvorm opstellen:

\begin{pmatrix}y_1\\y_2\\\vdots\\y_n\end{pmatrix}=\begin{pmatrix}1&x_{11}&\dots&x_{1m}\\1&x_{21}&\dots&x_{2m}\\ \vdots&\vdots&\ddots&\vdots\\1&x_{n1}&\dots&x_{nm}\end{pmatrix}\cdot\begin{pmatrix}\beta_0\\\beta_1\\\vdots\\\beta_m\end{pmatrix}+\begin{pmatrix}\varepsilon_1\\\varepsilon_2\\\vdots\\\varepsilon_n\end{pmatrix}

De bovenstaande matrixuitdrukking kan worden herschreven door aan elke matrix een letter toe te wijzen:

Y=X\beta+\varepsilon

Door het kleinste kwadratencriterium toe te passen, kunnen we dus tot de formule komen om de coëfficiënten van een meervoudig lineair regressiemodel te schatten :

\widehat{\beta}=\left(X^tX\right)^{-1}X^tY

De toepassing van deze formule is echter zeer omslachtig en tijdrovend. Daarom wordt in de praktijk aanbevolen om computersoftware (zoals Minitab of Excel) te gebruiken waarmee u veel sneller een meervoudig regressiemodel kunt maken.

Niet-lineaire regressieanalyse

In de statistiek is niet-lineaire regressie een type regressie waarbij een niet-lineaire functie wordt gebruikt als model voor de regressievergelijking. Daarom is de vergelijking van een niet-lineair regressiemodel een niet-lineaire functie.

Logischerwijs wordt niet-lineaire regressie gebruikt om de onafhankelijke variabele te relateren aan de afhankelijke variabele wanneer de relatie tussen de twee variabelen niet lineair is. Dus als we bij het grafisch weergeven van de voorbeeldgegevens vaststellen dat ze geen lineair verband hebben, dat wil zeggen dat ze niet bij benadering een rechte lijn vormen, is het beter om ‚een niet-lineair regressiemodel te gebruiken‘.

De vergelijking y=3-5x-8x 2 +x 3 is bijvoorbeeld een niet-lineair regressiemodel omdat het de onafhankelijke variabele X wiskundig relateert aan de afhankelijke variabele Y via een kubieke functie.

Er zijn hoofdzakelijk drie soorten niet-lineaire regressie :

  • Polynoomregressie – Niet-lineaire regressie waarvan de vergelijking de vorm heeft van een polynoom.
  • y=\beta_0+\beta_1 x+\beta_2 x^2+\beta_3 x^3+\dots+\beta_m x^m

  • Logaritmische regressie – Niet-lineaire regressie waarbij de onafhankelijke variabele wordt gelogaritmisch.
  • y=\beta_0+\beta_1\cdot \ln(x)

  • Exponentiële regressie – Niet-lineaire regressie waarbij de onafhankelijke variabele zich in de exponent van de vergelijking bevindt.
  • y=\beta_0\cdot e^{\beta_1\cdot x}

Waar wordt regressieanalyse voor gebruikt?

Regressieanalyse heeft in principe twee toepassingen: regressieanalyse wordt gebruikt om de relatie tussen de verklarende variabelen en de responsvariabele te verklaren, en op dezelfde manier wordt regressieanalyse gebruikt om de waarde van de afhankelijke variabele voor een nieuwe waarneming te voorspellen.

Door de vergelijking van het regressiemodel te verkrijgen, kunnen we weten welk type relatie er bestaat tussen de variabelen in het model. Als de regressiecoëfficiënt van een onafhankelijke variabele positief is, zal de afhankelijke variabele toenemen wanneer deze toeneemt. terwijl als de regressiecoëfficiënt van een onafhankelijke variabele negatief is, de afhankelijke variabele zal afnemen als deze toeneemt.

Aan de andere kant stelt de wiskundige vergelijking verkregen uit regressieanalyse ons ook in staat waardevoorspellingen te doen. Door de waarden van de verklarende variabelen in de vergelijking van het regressiemodel te introduceren, kunnen we dus de waarde van de afhankelijke variabele voor een nieuw stuk gegevens berekenen.

Einen Kommentar hinzufügen

Deine E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind mit * markiert