De standaardfout van regressie begrijpen
Wanneer we een regressiemodel in een dataset passen, zijn we vaak geïnteresseerd in hoe goed het regressiemodel bij de dataset past. Twee veelgebruikte maatstaven voor het meten van de goodness of fit zijn de R-kwadraat ( R2 ) en de standaardfout van regressie , vaak aangeduid als S.
In deze tutorial wordt uitgelegd hoe u de standaardfout van regressie (S) interpreteert en waarom deze nuttiger informatie kan opleveren dan R 2 .
Standaardfout versus R-kwadraat in regressie
Stel dat we een eenvoudige dataset hebben die laat zien hoeveel uur 12 studenten per dag hebben gestudeerd gedurende een maand voorafgaand aan een belangrijk examen, evenals hun examenscore:
Als we een eenvoudig lineair regressiemodel aan deze dataset in Excel aanpassen, krijgen we het volgende resultaat:
R-kwadraat is het deel van de variantie in de responsvariabele dat kan worden verklaard door de voorspellende variabele. In dit geval kan 65,76% van de variantie in examenscores worden verklaard door het aantal uren dat aan studeren wordt besteed.
De standaardfout van regressie is de gemiddelde afstand tussen de waargenomen waarden en de regressielijn. In dit geval wijken de waargenomen waarden gemiddeld 4,89 eenheden af van de regressielijn.
Als we de feitelijke gegevenspunten uitzetten met de regressielijn, kunnen we dit duidelijker zien:
Merk op dat sommige waarnemingen heel dicht bij de regressielijn liggen, terwijl andere dat niet doen. Maar gemiddeld wijken de waargenomen waarden 4,19 eenheden af van de regressielijn.
De standaardfout van regressie is vooral nuttig omdat deze kan worden gebruikt om de nauwkeurigheid van voorspellingen te evalueren. Ongeveer 95% van de waarneming zou binnen +/- twee standaardfouten van de regressie moeten vallen, wat een snelle benadering is van een voorspellingsinterval van 95%.
Als we voorspellingen willen doen met behulp van het regressiemodel, kan de standaardfout van de regressie een nuttiger maatstaf zijn om te weten dan de R-kwadraat, omdat deze ons een idee geeft van hoe nauwkeurig onze voorspellingen zijn in termen van eenheden.
Om te illustreren waarom de standaardfout van regressie een nuttiger maatstaf kan zijn voor het beoordelen van de ‘fit’ van een model, bekijken we een andere voorbeelddataset die laat zien hoeveel uur 12 studenten per dag studeerden gedurende een maand voorafgaand aan een belangrijk examen. hun examenresultaat:
Merk op dat dit exact dezelfde dataset is als voorheen, behalve dat alle s-waarden gehalveerd zijn . Studenten in deze dataset studeerden dus precies de helft van de tijd als studenten in de vorige dataset en kregen precies de helft van het examencijfer.
Als we een eenvoudig lineair regressiemodel aan deze dataset in Excel aanpassen, krijgen we het volgende resultaat:
Merk op dat het R-kwadraat van 65,76% precies hetzelfde is als in het vorige voorbeeld.
De standaardfout van de regressie is echter 2,095 , wat precies de helft is van de standaardfout van de regressie in het vorige voorbeeld.
Als we de feitelijke gegevenspunten uitzetten met de regressielijn, kunnen we dit duidelijker zien:
Merk op hoe de waarnemingen veel nauwer rond de regressielijn zijn geclusterd. Gemiddeld bevinden de waargenomen waarden zich op 2.095 eenheden van de regressielijn.
Dus hoewel beide regressiemodellen een R-kwadraat van 65,76% hebben, weten we dat het tweede model nauwkeurigere voorspellingen zou opleveren omdat het een lagere standaardfout voor de regressie heeft.
De voordelen van het gebruik van standaardfouten
De standaardfout van de regressie (S) is vaak nuttiger om te weten dan het R-kwadraat van het model, omdat deze ons de werkelijke eenheden geeft. Als we een regressiemodel willen gebruiken om voorspellingen te doen, kan S ons heel gemakkelijk vertellen of een model nauwkeurig genoeg is om voor voorspellingsdoeleinden te worden gebruikt.
Stel dat we bijvoorbeeld een voorspellingsinterval van 95% willen produceren waarin we examenscores kunnen voorspellen tot op 6 punten van de werkelijke score.
Ons eerste model heeft een R-kwadraat van 65,76%, maar dat zegt niets over de nauwkeurigheid van ons voorspellingsinterval. Gelukkig weten we ook dat het eerste model een S van 4,19 heeft. Dit betekent dat een voorspellingsinterval van 95% ongeveer 2*4,19 = +/- 8,38 eenheden breed zou zijn, wat te breed is voor ons voorspellingsinterval.
Ons tweede model heeft ook een R-kwadraat van 65,76%, maar nogmaals, dit vertelt ons niets over de nauwkeurigheid van ons voorspellingsinterval. Wel weten we dat het tweede model een S van 2.095 heeft. Dit betekent dat een voorspellingsinterval van 95% ongeveer 2*2,095 = +/- 4,19 eenheden breed zou zijn, wat minder is dan 6 en daarom nauwkeurig genoeg om te worden gebruikt om voorspellingsintervallen te produceren.
Verder lezen
Inleiding tot eenvoudige lineaire regressie
Wat is een goede R-kwadraatwaarde?