Hoe regressiecoëfficiënten te interpreteren


In de statistiek isregressieanalyse een techniek die kan worden gebruikt om de relatie tussen voorspellende variabelen en een responsvariabele te analyseren.

Wanneer u software (zoals R , Stata , SPSS , etc.) gebruikt om regressieanalyses uit te voeren, ontvangt u als uitvoer een regressietabel met een samenvatting van de regressieresultaten.

De belangrijkste getallen in het resultaat van de regressietabel zijn waarschijnlijk de regressiecoëfficiënten . Maar ondanks hun belang hebben veel mensen moeite om deze cijfers correct te interpreteren.

Deze tutorial geeft een voorbeeld van regressieanalyse en geeft een gedetailleerde uitleg van hoe de regressiecoëfficiënten die uit de regressie resulteren, moeten worden geïnterpreteerd.

Gerelateerd: Een volledige regressietabel lezen en interpreteren

Een voorbeeld van regressieanalyse

Stel dat we een regressieanalyse willen uitvoeren met behulp van de volgende variabelen:

Voorspellende variabelen

  • Totaal aantal bestudeerde uren ( continue variabele – tussen 0 en 20 )
  • Of de leerling al dan niet een tutor heeft gebruikt ( categorische variabele – “ja” of “nee” )

Responsvariabele

  • Examenscore ( continue variabele – tussen 1 en 100 )

We willen de relatie tussen de voorspellende variabelen en de responsvariabele onderzoeken om te zien of de gestudeerde uren en of een student al dan niet een bijlesdocent heeft gebruikt, daadwerkelijk een significante invloed hebben op het examencijfer.

Stel dat we een regressieanalyse uitvoeren en het volgende resultaat verkrijgen:

Termijn Coëfficiënt Standaardfout t Statistieken P-waarde
Onderscheppen 48.56 14:32 uur 3.39 0,002
Uren gestudeerd 2.03 0,67 3.03 0,009
Docent 8.34 5,68 1.47 0,138

Laten we eens kijken hoe we elke regressiecoëfficiënt kunnen interpreteren.

Interpretatie van de onderschepping

De oorspronkelijke term in een regressietabel vertelt ons de verwachte gemiddelde waarde voor de responsvariabele wanneer alle voorspellende variabelen gelijk zijn aan nul.

In dit voorbeeld is de regressiecoëfficiënt voor de oorsprong gelijk aan 48,56 . Dit betekent dat voor een student die nul uur heeft gestudeerd ( Gestudeerde uren = 0) en geen gebruik heeft gemaakt van een tutor ( Tutor = 0), de gemiddelde verwachte examenscore 48,56 is.

Het is belangrijk op te merken dat de regressiecoëfficiënt voor het snijpunt alleen significant is als het redelijk is dat alle voorspellende variabelen in het model feitelijk gelijk aan nul kunnen zijn. In dit voorbeeld is het zeker mogelijk dat een student nul uur heeft gestudeerd ( Gestudeerde uren = 0) en ook geen gebruik heeft gemaakt van een tutor ( Tutor = 0). De interpretatie van de regressiecoëfficiënt van het snijpunt is dus betekenisvol in dit voorbeeld.

In sommige gevallen is de regressiecoëfficiënt voor het snijpunt echter niet significant. Stel dat we bijvoorbeeld een regressieanalyse hebben uitgevoerd met vierkante meters als voorspellende variabele en de woningwaarde als responsvariabele.

In de outputregressietabel zou de regressiecoëfficiënt voor de oorspronkelijke term geen betekenisvolle interpretatie hebben, aangezien de vierkante meters van een huis nooit gelijk kunnen zijn aan nul. In dit geval verankert de regressiecoëfficiënt voor de oorspronkelijke term eenvoudigweg de regressielijn op de juiste plaats.

Interpretatie van de coëfficiënt van een continue voorspellende variabele

Voor een continue voorspellende variabele vertegenwoordigt de regressiecoëfficiënt het verschil tussen de voorspelde waarde van de responsvariabele voor elke verandering van één eenheid in de voorspellende variabele, ervan uitgaande dat alle andere voorspellende variabelen constant blijven.

In dit voorbeeld zijn de bestudeerde uren een continue voorspellende variabele die varieert van 0 tot 20 uur. In sommige gevallen studeerde een student maar nul uur en in andere gevallen studeerde een student wel twintig uur.

Uit het regressieresultaat kunnen we zien dat de regressiecoëfficiënt voor de bestudeerde uren 2,03 bedraagt. Dit betekent dat elk extra uur dat je studeerde gemiddeld gepaard gaat met een stijging van 2,03 punten op het eindexamen, ervan uitgaande dat de voorspellende variabele Tutor constant wordt gehouden.

Neem bijvoorbeeld student A die 10 uur studeert en gebruik maakt van een tutor. Denk ook eens aan Student B die 11 uur studeert en ook gebruik maakt van een tutor. Volgens onze regressieresultaten zal leerling B naar verwachting 2,03 punten hoger scoren op het examen dan leerling A.

De p-waarde van de regressietabel vertelt ons of deze regressiecoëfficiënt daadwerkelijk statistisch significant is of niet. We kunnen zien dat de p-waarde voor de bestudeerde uren 0,009 is, wat statistisch significant is bij een alfaniveau van 0,05.

Opmerking: Het alfaniveau moet worden gekozen voordat de regressieanalyse wordt uitgevoerd. Veelvoorkomende keuzes voor het alfaniveau zijn 0,01, 0,05 en 0,10.

Gerelateerd artikel: Een uitleg van P-waarden en hun statistische significantie

Het interpreteren van de coëfficiënt van een categorische voorspellende variabele

Voor een categorische voorspellende variabele vertegenwoordigt de regressiecoëfficiënt het verschil in de voorspelde waarde van de responsvariabele tussen de categorie waarvoor de voorspellende variabele = 0 en de categorie waarvoor de voorspellende variabele = 1.

In dit voorbeeld is Tutor een categorische voorspellende variabele die twee verschillende waarden kan aannemen:

  • 1 = de student heeft een tutor gebruikt om zich voor te bereiden op het examen
  • 0 = de student heeft geen tutor gebruikt om zich voor te bereiden op het examen

Uit het regressieresultaat kunnen we zien dat de regressiecoëfficiënt voor Tutor 8,34 is. Dit betekent dat een student die gebruik heeft gemaakt van een tutor gemiddeld 8,34 punten hoger scoort op het examen dan een student die geen gebruik heeft gemaakt van een tutor, ervan uitgaande dat de voorspellende variabele Gestudeerde uren constant blijft.

Neem bijvoorbeeld student A die 10 uur studeert en gebruik maakt van een tutor. Denk ook eens aan student B die 10 uur studeert en geen gebruik maakt van een tutor. Volgens onze regressieresultaten wordt verwacht dat student A een examenscore heeft die 8,34 punten hoger is dan student B.

De p-waarde van de regressietabel vertelt ons of deze regressiecoëfficiënt daadwerkelijk statistisch significant is of niet. We kunnen zien dat de p-waarde voor Tutor 0,138 is, wat niet statistisch significant is op een alfaniveau van 0,05. Dit geeft aan dat hoewel studenten die een bijlesdocent gebruikten beter presteerden op het examen, dit verschil te wijten zou kunnen zijn aan geluk.

Interpreteer alle coëfficiënten in één keer

We kunnen alle coëfficiënten in de regressietabel gebruiken om de volgende geschatte regressievergelijking te maken:

Verwachte examenscore = 48,56 + 2,03*(uren gestudeerd) + 8,34*(docent)

Opmerking : houd er rekening mee dat de voorspellende variabele ‚Tutor‘ niet statistisch significant was op het alpha-niveau van 0,05. U kunt er dus voor kiezen om deze voorspellende variabele uit het model te verwijderen en deze niet te gebruiken in de uiteindelijke schatting van de regressievergelijking.

Met behulp van deze geschatte regressievergelijking kunnen we het eindexamencijfer van een student voorspellen op basis van het totale aantal uren studie en of hij al dan niet een bijlesdocent heeft gebruikt.

Een student die bijvoorbeeld 10 uur heeft gestudeerd en gebruik heeft gemaakt van een bijlesdocent, zou een examenscore moeten krijgen van:

Verwachte examenscore = 48,56 + 2,03*(10) + 8,34*(1) = 77,2

Rekening houden met correlatie bij het interpreteren van regressiecoëfficiënten

Het is belangrijk om in gedachten te houden dat voorspellende variabelen elkaar kunnen beïnvloeden in een regressiemodel. De meeste voorspellende variabelen zullen bijvoorbeeld op zijn minst enigszins met elkaar verband houden (een student die meer studeert, zal bijvoorbeeld ook eerder een bijlesdocent gebruiken).

Dit betekent dat de regressiecoëfficiënten zullen veranderen wanneer verschillende voorspellende variabelen worden toegevoegd aan of verwijderd uit het model.

Een goede manier om te zien of de correlatie tussen de voorspellende variabelen ernstig genoeg is om het regressiemodel serieus te beïnvloeden, is door de VIF tussen de voorspellende variabelen te controleren .

Dit zal u vertellen of de correlatie tussen de voorspellende variabelen al dan niet een probleem is dat moet worden opgelost voordat u besluit de regressiecoëfficiënten te interpreteren.

Als u een eenvoudig lineair regressiemodel met één enkele voorspeller uitvoert, zullen gecorreleerde voorspellervariabelen geen probleem vormen.

Einen Kommentar hinzufügen

Deine E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind mit * markiert