De nulhypothese voor lineaire regressie begrijpen
Lineaire regressie is een techniek die we kunnen gebruiken om de relatie tussen een of meer voorspellende variabelen en eenresponsvariabele te begrijpen.
Als we slechts één voorspellende variabele en één responsvariabele hebben, kunnen we eenvoudige lineaire regressie gebruiken, waarbij de volgende formule wordt gebruikt om de relatie tussen de variabelen te schatten:
ŷ = β 0 + β 1 x
Goud:
- ŷ: De geschatte responswaarde.
- β 0 : De gemiddelde waarde van y wanneer x nul is.
- β 1 : De gemiddelde verandering in y geassocieerd met een toename van één eenheid in x.
- x: de waarde van de voorspellende variabele.
Eenvoudige lineaire regressie gebruikt de volgende nul- en alternatieve hypothesen:
- H0 : β1 = 0
- H EEN : β 1 ≠ 0
De nulhypothese stelt dat de coëfficiënt β 1 gelijk is aan nul. Met andere woorden: er is geen statistisch significante relatie tussen de voorspellende variabele x en de responsvariabele y.
De alternatieve hypothese stelt dat β 1 niet gelijk is aan nul. Met andere woorden: er is een statistisch significante relatie tussen x en y.
Als we meerdere voorspellende variabelen en een responsvariabele hebben, kunnen we meervoudige lineaire regressie gebruiken, waarbij de volgende formule wordt gebruikt om de relatie tussen de variabelen te schatten:
ŷ = β 0 + β 1 x 1 + β 2 x 2 + … + β k x k
Goud:
- ŷ: De geschatte responswaarde.
- β 0 : De gemiddelde waarde van y wanneer alle voorspellende variabelen gelijk zijn aan nul.
- β i : De gemiddelde verandering in y geassocieerd met een toename van één eenheid in x i .
- x i : De waarde van de voorspellende variabele x i .
Bij meervoudige lineaire regressie worden de volgende nul- en alternatieve hypothesen gebruikt:
- H 0 : β 1 = β 2 = … = β k = 0
- H A : β 1 = β 2 = … = β k ≠ 0
De nulhypothese stelt dat alle coëfficiënten in het model gelijk zijn aan nul. Met andere woorden: geen van de voorspellende variabelen heeft een statistisch significante relatie met de responsvariabele y.
De alternatieve hypothese stelt dat niet alle coëfficiënten tegelijkertijd gelijk zijn aan nul.
De volgende voorbeelden laten zien hoe u kunt beslissen of u de nulhypothese wel of niet verwerpt in eenvoudige lineaire regressie- en meervoudige lineaire regressiemodellen.
Voorbeeld 1: Eenvoudige lineaire regressie
Stel dat een hoogleraar het aantal gestudeerde uren wil gebruiken om te voorspellen welk examencijfer studenten in zijn klas zullen behalen. Het verzamelt gegevens van twintig studenten en past een eenvoudig lineair regressiemodel toe.
De volgende schermafbeelding toont het resultaat van het regressiemodel:
Het aangepaste eenvoudige lineaire regressiemodel is:
Examenscore = 67,1617 + 5,2503*(uren gestudeerd)
Om te bepalen of er een statistisch significante relatie bestaat tussen het aantal gestudeerde uren en de examenscore, moeten we de totale F-waarde van het model en de bijbehorende p-waarde analyseren:
- Totale F-waarde: 47,9952
- P-waarde: 0,000
Omdat deze p-waarde kleiner is dan 0,05, kunnen we de nulhypothese verwerpen. Met andere woorden: er is een statistisch significante relatie tussen het aantal gestudeerde uren en de examenscores.
Voorbeeld 2: Meervoudige lineaire regressie
Stel dat een professor het aantal gestudeerde uren en het aantal afgelegde voorbereidende examens wil gebruiken om te voorspellen welk cijfer studenten in zijn klas zullen behalen. Het verzamelt gegevens van 20 studenten en past in een meervoudig lineair regressiemodel.
De volgende schermafbeelding toont het resultaat van het regressiemodel:
Het aangepaste meervoudige lineaire regressiemodel is:
Examenscore = 67,67 + 5,56*(uren gestudeerd) – 0,60*(voorbereidende examens afgelegd)
Om te bepalen of er een statistisch significante relatie bestaat tussen de twee voorspellende variabelen en de responsvariabele, moeten we de algehele F-waarde van het model en de bijbehorende p-waarde analyseren:
- Totale F-waarde: 23,46
- P-waarde: 0,00
Omdat deze p-waarde kleiner is dan 0,05, kunnen we de nulhypothese verwerpen. Met andere woorden, het aantal gestudeerde uren en afgelegde voorbereidende examens hebben een statistisch significante relatie met examenresultaten.
Let op: Hoewel de p-waarde voor afgelegde voorbereidende examens (p = 0,52) niet significant is, hebben voorbereidende examens gecombineerd met gestudeerde uren een significante relatie met examenresultaten.
Aanvullende bronnen
De F-test begrijpen voor de algehele significantie in regressie
Een regressietabel lezen en interpreteren
Hoe regressieresultaten te rapporteren
Hoe u eenvoudige lineaire regressie uitvoert in Excel
Hoe u meerdere lineaire regressies uitvoert in Excel