Hoe p-waarden in lineaire regressie te interpreteren (met voorbeeld)


In de statistiek worden lineaire regressiemodellen gebruikt om de relatie tussen een of meer voorspellende variabelen en eenresponsvariabele te kwantificeren.

Elke keer dat u een regressieanalyse uitvoert met behulp van statistische software, ontvangt u een regressietabel die de resultaten van het model samenvat.

Twee van de belangrijkste waarden in een regressietabel zijn de regressiecoëfficiënten en de bijbehorende p-waarden .

De p-waarden vertellen je of er wel of niet een statistisch significante relatie bestaat tussen elke voorspellende variabele en de responsvariabele.

Het volgende voorbeeld laat zien hoe u de p-waarden van een meervoudig lineair regressiemodel in de praktijk kunt interpreteren.

Voorbeeld: P-waarden interpreteren in een regressiemodel

Stel dat we een regressiemodel willen fitten met behulp van de volgende variabelen:

Voorspellende variabelen

  • Totaal aantal bestudeerde uren (tussen 0 en 20)
  • Of de leerling wel of niet gebruik heeft gemaakt van een bijlesdocent (ja of nee)

Responsvariabele

  • Examenscore (tussen 0 en 100)

We willen de relatie tussen de voorspellende variabelen en de responsvariabele onderzoeken om erachter te komen of studie- en bijlesuren daadwerkelijk een significante invloed hebben op examenscores.

Stel dat we een regressieanalyse uitvoeren en het volgende resultaat verkrijgen:

Termijn Coëfficiënt Standaardfout t Statistieken P-waarde
Onderscheppen 48.56 14:32 uur 3.39 0,002
Uren gestudeerd 2.03 0,67 3.03 0,009
Docent 8.34 5,68 1.47 0,138

Zo interpreteert u het resultaat van elke term in het model:

Interpretatie van P-waarde voor onderschepping

De oorspronkelijke term in een regressietabel vertelt ons de verwachte gemiddelde waarde voor de responsvariabele wanneer alle voorspellende variabelen gelijk zijn aan nul.

In dit voorbeeld is de regressiecoëfficiënt voor de oorsprong gelijk aan 48,56 . Dit betekent dat voor een student die nul uur heeft gestudeerd , de gemiddelde verwachte examenscore 48,56 bedraagt.

De p-waarde is 0,002 , wat ons vertelt dat de oorspronkelijke term statistisch verschillend is van nul.

In de praktijk interesseert het ons over het algemeen niet wat de p-waarde voor de oorspronkelijke term is. Zelfs als de p-waarde niet onder een bepaald significantieniveau ligt (bijvoorbeeld 0,05), zouden we nog steeds de oorspronkelijke term in het model behouden.

Interpretatie van de P-waarde voor een continue voorspellende variabele

In dit voorbeeld zijn de bestudeerde uren een continue voorspellende variabele die varieert van 0 tot 20 uur.

Uit het regressieresultaat kunnen we zien dat de regressiecoëfficiënt voor de bestudeerde uren 2,03 bedraagt. Dit betekent dat elk extra uur dat je studeerde gemiddeld gepaard gaat met een stijging van 2,03 punten op het eindexamen, ervan uitgaande dat de voorspellende variabele Tutor constant wordt gehouden.

Neem bijvoorbeeld student A die 10 uur studeert en gebruik maakt van een tutor. Denk ook eens aan Student B die 11 uur studeert en ook gebruik maakt van een tutor. Volgens onze regressieresultaten zal leerling B naar verwachting 2,03 punten hoger scoren op het examen dan leerling A.

De overeenkomstige p-waarde is 0,009 , wat statistisch significant is bij een alfaniveau van 0,05.

Dit vertelt ons dat de gemiddelde verandering in examenscores voor elk extra bestudeerd uur statistisch significant verschilt van nul .

Met andere woorden: de bestudeerde uren hebben een statistisch significante relatie met de responsvariabele van de examenscore .

Interpretatie van de P-waarde voor een categorische voorspellende variabele

In dit voorbeeld is Tutor een categorische voorspellende variabele die twee verschillende waarden kan aannemen:

  • 1 = de student heeft een tutor gebruikt om zich voor te bereiden op het examen
  • 0 = de student heeft geen tutor gebruikt om zich voor te bereiden op het examen

Uit het regressieresultaat kunnen we zien dat de regressiecoëfficiënt voor Tutor 8,34 is. Dit betekent dat een student die gebruik heeft gemaakt van een tutor gemiddeld 8,34 punten hoger scoort op het examen dan een student die geen gebruik heeft gemaakt van een tutor, ervan uitgaande dat de voorspellende variabele Gestudeerde uren constant blijft.

Neem bijvoorbeeld student A die 10 uur studeert en gebruik maakt van een tutor. Denk ook eens aan student B die 10 uur studeert en geen gebruik maakt van een tutor. Volgens onze regressieresultaten wordt verwacht dat student A een examenscore heeft die 8,34 punten hoger is dan student B.

De overeenkomstige p-waarde is 0,138 , wat niet statistisch significant is bij een alfaniveau van 0,05.

Dit vertelt ons dat de gemiddelde verandering in de examenscores voor elk extra uur dat we studeren niet statistisch significant verschilt van nul .

Een andere manier om het te zeggen: de voorspellende variabele Tutor heeft geen statistisch significante relatie met de responsvariabele voor de examenscore .

Dit geeft aan dat hoewel studenten die een bijlesdocent gebruikten beter presteerden op het examen, dit verschil te wijten zou kunnen zijn aan geluk.

Aanvullende bronnen

De volgende zelfstudies bieden aanvullende informatie over lineaire regressie:

Hoe de F-test te interpreteren voor de algehele significantie in regressie
De vijf aannames van meervoudige lineaire regressie
De t-test begrijpen bij lineaire regressie

Einen Kommentar hinzufügen

Deine E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind mit * markiert