Hoe voorspellingen te doen met lineaire regressie


Lineaire regressie is een methode die we kunnen gebruiken om de relatie tussen een of meer voorspellende variabelen en eenresponsvariabele te kwantificeren.

Een van de meest voorkomende redenen om een regressiemodel in te passen is om het model te gebruiken om de waarden van nieuwe waarnemingen te voorspellen.

Om voorspellingen te doen met een regressiemodel gebruiken we de volgende stappen:

  • Stap 1: Verzamel gegevens.
  • Stap 2: Pas een regressiemodel aan de gegevens aan.
  • Stap 3: Controleer of het model bij de gegevens past.
  • Stap 4: Gebruik de aangepaste regressievergelijking om de waarden van de nieuwe waarnemingen te voorspellen.

De volgende voorbeelden laten zien hoe u regressiemodellen kunt gebruiken om voorspellingen te doen.

Voorbeeld 1: Voorspellingen doen met een eenvoudig lineair regressiemodel

Stel dat een arts gegevens verzamelt over de lengte (in inches) en het gewicht (in ponden) van 50 patiënten.

Het past dan in een eenvoudig lineair regressiemodel met ‘gewicht’ als voorspellende variabele en ‘lengte’ als responsvariabele.

De aangepaste regressievergelijking is:

Maat = 32,7830 + 0,2001*(gewicht)

Nadat hij heeft gecontroleerd of aan de aannames van het lineaire regressiemodel is voldaan, concludeert de arts dat het model goed bij de gegevens past.

Vervolgens kan het model het model gebruiken om de lengte van nieuwe patiënten te voorspellen op basis van hun gewicht.

Laten we bijvoorbeeld zeggen dat een nieuwe patiënt 170 pond weegt. Met behulp van het model voorspellen we dat deze patiënt een lengte van 66,8 inch zou hebben:

Hoogte = 32,7830 + 0,2001*(170) = 66,8 inch

Voorbeeld 2: Voorspellingen doen met een meervoudig lineair regressiemodel

Stel dat een econoom gegevens verzamelt over het totaal aantal jaren onderwijs, het aantal gewerkte wekelijkse uren en het jaarinkomen van 30 personen.

Het past dan in een meervoudig lineair regressiemodel, waarbij “totaal aantal jaren onderwijs” en “wekelijkse gewerkte uren” als voorspellende variabele en “jaarlijks inkomen” als responsvariabele wordt gebruikt.

De aangepaste regressievergelijking is:

Inkomen = 1.342,29 + 3.324,33*(jaren scholing) + 765,88*(wekelijkse gewerkte uren)

Nadat hij heeft geverifieerd dat aan de aannames van het lineaire regressiemodel is voldaan, concludeert de econoom dat het model goed bij de gegevens past.

Vervolgens kan het model het jaarinkomen van een nieuw individu voorspellen op basis van het totale aantal onderwijsjaren en het aantal gewerkte wekelijkse uren.

Stel bijvoorbeeld dat een nieuweling in totaal zestien jaar onderwijs heeft gevolgd en gemiddeld 40 uur per week werkt. Met behulp van het model voorspellen we dat deze persoon een jaarinkomen van $ 85.166,77 zou hebben:

Inkomen = 1.342,29 + 3.324,33*(16) + 765,88*(45) = $85.166,77

Over het gebruik van betrouwbaarheidsintervallen

Wanneer u een regressiemodel gebruikt om voorspellingen te doen over nieuwe waarnemingen, wordt de door het regressiemodel voorspelde waarde een puntschatting genoemd.

Hoewel de puntschatting onze beste schatting van de waarde van de nieuwe waarneming vertegenwoordigt, is het onwaarschijnlijk dat deze exact overeenkomt met de waarde van de nieuwe waarneming.

Om deze onzekerheid vast te leggen, kunnen we dus een betrouwbaarheidsinterval creëren: een reeks waarden die waarschijnlijk een populatieparameter met een bepaald niveau van betrouwbaarheid bevatten.

In plaats van bijvoorbeeld te voorspellen dat een nieuw individu 66,8 centimeter lang zal zijn, kunnen we het volgende betrouwbaarheidsinterval creëren:

95% betrouwbaarheidsinterval = [64,8 inch, 68,8 inch]

We interpreteren dit interval zo dat we er 95% zeker van zijn dat de werkelijke lengte van deze persoon tussen 64,8 inch en 68,8 inch ligt.

Voorzorgsmaatregelen die u moet nemen bij het maken van voorspellingen

Houd de volgende punten in gedachten wanneer u een regressiemodel gebruikt om voorspellingen te doen:

1. Gebruik het model alleen om voorspellingen te doen binnen het gegevensbereik dat wordt gebruikt om het regressiemodel te schatten.

Stel bijvoorbeeld dat we een regressiemodel aan het passen waren met behulp van de voorspellende variabele ‚gewicht‘ en dat het gewicht van de individuen in de steekproef die we gebruikten om het model te schatten tussen de 120 en 180 pond lag.

Het zou niet geldig zijn om het model te gebruiken om de lengte te schatten van een persoon die 200 pond weegt, omdat dit buiten het bereik ligt van de voorspellende variabele die we hebben gebruikt om het model te schatten.

Het is mogelijk dat de relatie tussen gewicht en lengte anders is buiten het bereik van 120 tot 180 pond. We moeten het model daarom niet gebruiken om de lengte te schatten van een persoon die 200 pond weegt.

2. Gebruik het model alleen om voorspellingen te doen voor de populatie die u hebt bemonsterd.

Stel bijvoorbeeld dat de bevolking die een econoom trekt uit een steekproef van alle mensen die in een bepaalde stad wonen.

We zouden het aangepaste regressiemodel alleen moeten gebruiken om het jaarinkomen van individuen in deze stad te voorspellen, aangezien de hele steekproef die in het model paste, in deze stad woonde.

Aanvullende bronnen

Inleiding tot eenvoudige lineaire regressie
Inleiding tot meervoudige lineaire regressie
Inleiding tot betrouwbaarheidsintervallen
De vier aannames van lineaire regressie

Einen Kommentar hinzufügen

Deine E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind mit * markiert