Een regressietabel lezen en interpreteren
In de statistiek is regressie een techniek die kan worden gebruikt om de relatie tussen voorspellende variabelen en een responsvariabele te analyseren.
Wanneer u software (zoals R, SAS, SPSS, etc.) gebruikt om regressieanalyses uit te voeren, ontvangt u als uitvoer een regressietabel met een samenvatting van de regressieresultaten. Het is belangrijk om te weten hoe u deze tabel moet lezen, zodat u de resultaten van de regressieanalyse kunt begrijpen.
Deze tutorial toont een voorbeeld van regressieanalyse en biedt een gedetailleerde uitleg over hoe u het resultaat van een regressietabel leest en interpreteert.
Een voorbeeld van regressie
Stel dat we de volgende gegevensset hebben die het totale aantal gestudeerde uren, het totale aantal afgelegde voorbereidende examens en het eindexamencijfer voor 12 verschillende studenten toont:
Om de relatie tussen de gestudeerde uren en de afgelegde voorbereidende examens te analyseren met het eindexamencijfer dat een student behaalt, voeren we een meervoudige lineaire regressie uit met gestudeerde uren en voorbereidende examens als voorspellende variabelen en het eindcijfer dat wordt onderzocht als responsvariabele.
We krijgen het volgende resultaat:
Het onderzoeken van de pasvorm van het model
In het eerste gedeelte worden verschillende getallen weergegeven die de fit van het regressiemodel meten, dat wil zeggen hoe goed het regressiemodel in staat is de dataset te ‘passen’.
Hier leest u hoe u elk van de getallen in dit gedeelte interpreteert:
Verschillende Rs
Dit is de correlatiecoëfficiënt . Het meet de sterkte van de lineaire relatie tussen de voorspellende variabelen en de responsvariabele. Een R-veelvoud van 1 geeft een perfect lineair verband aan, terwijl een R-veelvoud van 0 geen lineair verband aangeeft. Veelvoud R is de vierkantswortel van R in het kwadraat (zie hieronder).
In dit voorbeeld is het veelvoud R 0,72855 , wat duidt op een vrij sterke lineaire relatie tussen de studie-uren en voorbereidende examens van de voorspellers en het eindexamencijfer van de responsvariabele.
R-kwadraat
Dit wordt vaak geschreven als r2 en staat ook bekend als de determinatiecoëfficiënt . Dit is het deel van de variantie in de responsvariabele dat kan worden verklaard door de voorspellende variabele.
De R-kwadraatwaarde kan variëren van 0 tot 1. Een waarde van 0 geeft aan dat de responsvariabele helemaal niet kan worden verklaard door de voorspellende variabele. Een waarde van 1 geeft aan dat de responsvariabele perfect en zonder fouten kan worden verklaard door de voorspellende variabele.
In dit voorbeeld is de R-kwadraat 0,5307 , wat aangeeft dat 53,07% van de variantie in eindexamenscores kan worden verklaard door het aantal gestudeerde uren en het aantal behaalde oefenexamens.
Gerelateerd: Wat is een goede R-kwadraatwaarde?
Aangepast R-kwadraat
Dit is een aangepaste versie van R-kwadraat die is aangepast op basis van het aantal voorspellers in het model. Het is altijd kleiner dan R kwadraat. De aangepaste R-kwadraat kan nuttig zijn om de fit van verschillende regressiemodellen met elkaar te vergelijken.
In dit voorbeeld is het aangepaste R-kwadraat 0,4265.
Standaardfout van regressie
De standaardfout van regressie is de gemiddelde afstand tussen de waargenomen waarden en de regressielijn. In dit voorbeeld wijken de waargenomen waarden gemiddeld 7,3267 eenheden af van de regressielijn.
Gerelateerd: De standaardfout van regressie begrijpen
Opmerkingen
Dit is eenvoudigweg het aantal waarnemingen in onze dataset. In dit voorbeeld is het totale aantal waarnemingen 12 .
Het testen van de algehele betekenis van het regressiemodel
De volgende sectie toont de vrijheidsgraden, de som van de kwadraten, de gemiddelde kwadraten, de F-statistiek en de algemene betekenis van het regressiemodel.
Hier leest u hoe u elk van de getallen in dit gedeelte interpreteert:
Regressie vrijheidsgraden
Dit aantal is gelijk aan: het aantal regressiecoëfficiënten – 1. In dit voorbeeld hebben we een originele term en twee voorspellende variabelen, dus we hebben in totaal drie regressiecoëfficiënten, wat betekent dat de vrijheidsgraden van regressie 3 – 1 zijn = 2 .
Totale vrijheidsgraden
Dit aantal is gelijk aan: het aantal waarnemingen – 1. In dit voorbeeld hebben we 12 waarnemingen, dus het totale aantal vrijheidsgraden is 12 – 1 = 11 .
Resterende vrijheidsgraden
Dit getal is gelijk aan: totaal df – regressie df. In dit voorbeeld zijn de resterende vrijheidsgraden 11 – 2 = 9 .
Bedoelde vierkanten
Regressiegemiddelde vierkanten worden berekend door SS-regressie/df-regressie. In dit voorbeeld is regressie MS = 546,53308 / 2 = 273,2665 .
Residuele gemiddelde kwadraten worden berekend door residuele SS/residuele df. In dit voorbeeld is rest-MS = 483,1335 / 9 = 53,68151 .
F-statistiek
De f-statistiek wordt berekend als MS-regressie/MS-residu. Deze statistiek geeft aan of het regressiemodel beter bij de gegevens past dan een model dat geen onafhankelijke variabelen bevat.
In wezen wordt getest of het regressiemodel als geheel bruikbaar is. Als geen van de voorspellende variabelen in het model statistisch significant is, is de algehele F-statistiek doorgaans ook niet statistisch significant.
In dit voorbeeld is de F-statistiek 273,2665 / 53,68151 = 5,09 .
Belang van F (P-waarde)
De laatste waarde in de tabel is de p-waarde die is gekoppeld aan de F-statistiek. Om te zien of het algehele regressiemodel significant is, kunt u de p-waarde vergelijken met een significantieniveau; veel voorkomende keuzes zijn .01, .05 en .10.
Als de p-waarde onder het significantieniveau ligt, is er voldoende bewijs om te concluderen dat het regressiemodel beter bij de gegevens past dan het model zonder voorspellende variabele. Dit resultaat is positief omdat het betekent dat de voorspellende variabelen van het model de fit van het model daadwerkelijk verbeteren.
In dit voorbeeld is de p-waarde 0,033 , wat onder het gebruikelijke significantieniveau van 0,05 ligt. Dit geeft aan dat het regressiemodel als geheel statistisch significant is, dat wil zeggen dat het model beter bij de gegevens past dan het model zonder voorspellende variabelen.
Het testen van de algehele betekenis van het regressiemodel
Het laatste deel presenteert de coëfficiëntschattingen, standaardfout van de schattingen, t-statistiek, p-waarden en betrouwbaarheidsintervallen voor elke term in het regressiemodel.
Hier leest u hoe u elk van de getallen in dit gedeelte interpreteert:
Coëfficiënten
De coëfficiënten geven ons de getallen die nodig zijn om de geschatte regressievergelijking te schrijven:
y hoed = b 0 + b 1 x 1 + b 2 x 2 .
In dit voorbeeld is de geschatte regressievergelijking:
eindexamenscore = 66,99 + 1.299 (studie-uren) + 1.117 (voorbereidende examens)
Elke individuele coëfficiënt wordt geïnterpreteerd als de gemiddelde toename van de responsvariabele voor elke toename van één eenheid in een bepaalde voorspellende variabele, ervan uitgaande dat alle andere voorspellende variabelen constant blijven. Voor elk extra bestudeerd uur bedraagt de verwachte gemiddelde stijging van de eindexamenscore bijvoorbeeld 1.299 punten, ervan uitgaande dat het aantal afgelegde voorbereidende examens constant blijft.
Het intercept wordt geïnterpreteerd als het verwachte gemiddelde cijfer op het eindexamen voor een student die nul uur studeert en geen voorbereidende examens aflegt. In dit voorbeeld wordt van een student verwacht dat hij een score van 66,99 scoort als hij nul uur studeert en geen voorbereidende examens aflegt. Wees voorzichtig bij het interpreteren van het snijpunt van een regressieresultaat, aangezien dit niet altijd zinvol is.
In sommige gevallen kan het snijpunt bijvoorbeeld een negatief getal blijken te zijn, dat vaak geen voor de hand liggende interpretatie heeft. Dit betekent niet dat het model verkeerd is, het betekent alleen dat de onderschepping zelf niet geïnterpreteerd mag worden als een betekenis.
Standaardfout, t-statistieken en p-waarden
De standaardfout is een maatstaf voor de onzekerheid rond de coëfficiëntschatting voor elke variabele.
De t-stat is eenvoudigweg de coëfficiënt gedeeld door de standaardfout. De t-statistiek voor studie-uren is bijvoorbeeld 1,299 / 0,417 = 3,117.
De volgende kolom toont de p-waarde die is gekoppeld aan de t-statistiek. Dit getal vertelt ons of een bepaalde responsvariabele significant is in het model. In dit voorbeeld zien we dat de p-waarde voor studie-uren 0,012 is en de p-waarde voor voorbereidingsexamens 0,304. Dit geeft aan dat studie-uren een belangrijke voorspeller zijn van het eindexamencijfer, in tegenstelling tot oefenexamens .
Betrouwbaarheidsinterval voor coëfficiëntschattingen
De laatste twee kolommen van de tabel geven de onder- en bovengrenzen weer van een betrouwbaarheidsinterval van 95% voor de coëfficiëntschattingen.
De coëfficiëntenschatting voor studie-uren is bijvoorbeeld 1,299, maar er bestaat enige onzekerheid rond deze schatting. We kunnen nooit zeker weten of dit de exacte coëfficiënt is. Een betrouwbaarheidsinterval van 95% geeft ons dus een reeks waarschijnlijke waarden voor de werkelijke coëfficiënt.
In dit geval is het 95% betrouwbaarheidsinterval voor studie-uren (0,356, 2,24). Merk op dat dit betrouwbaarheidsinterval niet het getal „0“ bevat, wat betekent dat we er volledig zeker van zijn dat de werkelijke waarde van de coëfficiënt van studie-uren niet nul is, dat wil zeggen een positief getal.
Het 95% betrouwbaarheidsinterval voor de voorbereidende examens is daarentegen (-1,201, 3,436). Merk op dat dit betrouwbaarheidsinterval het getal „0“ bevat , wat betekent dat de werkelijke waarde van de coëfficiënt van de voorbereidende examens nul zou kunnen zijn, dat wil zeggen niet significant bij het voorspellen van de resultaten van het eindexamen.
Aanvullende bronnen
De nulhypothese voor lineaire regressie begrijpen
De F-test begrijpen voor de algehele significantie in regressie
Hoe regressieresultaten te rapporteren