Hoe aangepaste r-kwadraat te interpreteren (met voorbeelden)
Wanneer we lineaire regressiemodellen passen, berekenen we vaak de R-kwadraatwaarde van het model.
De R-kwadraatwaarde is het deel van de variantie in de responsvariabele dat kan worden verklaard door de voorspellende variabelen in het model.
De waarde van R kwadraat kan variëren van 0 tot 1 waarbij:
- Een waarde van 0 geeft aan dat de responsvariabele helemaal niet kan worden verklaard door de voorspellende variabelen.
- Een waarde van 1 geeft aan dat de responsvariabele perfect kan worden verklaard door de voorspellende variabelen.
Hoewel deze statistiek vaak wordt gebruikt om te evalueren hoe goed een regressiemodel bij een dataset past, heeft het een ernstig nadeel:
Het nadeel van R-kwadraat:
De R-kwadraat zal altijd toenemen wanneer een nieuwe voorspellende variabele aan het regressiemodel wordt toegevoegd.
Zelfs als een nieuwe voorspellende variabele vrijwel geen relatie heeft met de responsvariabele, zal de R-kwadraatwaarde van het model toenemen, al is het maar met een kleine hoeveelheid.
Om deze reden is het mogelijk dat een regressiemodel met een groot aantal voorspellende variabelen een hoge R-kwadraatwaarde heeft, zelfs als het model niet goed bij de gegevens past.
Gelukkig is er een alternatief voor R-kwadraat, genaamd aangepast R-kwadraat .
Aangepaste R-kwadraat is een aangepaste versie van R-kwadraat die zich aanpast aan het aantal voorspellers in een regressiemodel.
Het wordt als volgt berekend:
Aangepaste R 2 = 1 – [(1-R 2 )*(n-1)/(nk-1)]
Goud:
- R 2 : De R 2 van het model
- n : Het aantal waarnemingen
- k : het aantal voorspellende variabelen
Omdat R-kwadraat altijd toeneemt naarmate u voorspellers aan een model toevoegt, kan aangepast R-kwadraat u vertellen hoe nuttig een model is, aangepast voor het aantal voorspellers in een model .
Het voordeel van aangepast R-kwadraat:
De aangepaste R-kwadraat vertelt ons hoe goed een reeks voorspellende variabelen de variatie in de responsvariabele kan verklaren, aangepast voor het aantal voorspellers in een model .
Vanwege de manier waarop het wordt berekend, kan aangepast R-kwadraat worden gebruikt om de fit van regressiemodellen te vergelijken met verschillende aantallen voorspellende variabelen.
Zie het volgende voorbeeld om het aangepaste R-kwadraat beter te begrijpen.
Voorbeeld: Inzicht in aangepast R-kwadraat in regressiemodellen
Stel dat een professor gegevens verzamelt over de leerlingen in zijn klas en het volgende regressiemodel toepast om te begrijpen hoe de uren die hij aan studeren besteedt en het huidige cijfer in de klas van invloed zijn op het cijfer dat een leerling krijgt op het eindexamen.
Examenscore = β 0 + β 1 (studie-uren) + β 2 (huidig cijfer)
Laten we aannemen dat dit regressiemodel de volgende statistieken heeft:
- R kwadraat: 0,955
- Aangepaste R-kwadraat: 0,946
Stel nu dat de leraar besluit om voor elke leerling gegevens te verzamelen over een andere variabele: schoenmaat.
Hoewel deze variabele geen relatie mag hebben met het eindexamencijfer, besluit hij het volgende regressiemodel aan te passen:
Examenscore = β 0 + β 1 (studie-uren) + β 2 (lopend jaar) + β 3 (schoenmaat)
Laten we aannemen dat dit regressiemodel de volgende statistieken heeft:
- R kwadraat: 0,965
- Aangepaste R-kwadraat: 0,902
Als we alleen naar de R-kwadraatwaarden voor elk van deze twee regressiemodellen zouden kijken, zouden we concluderen dat het tweede model beter te gebruiken is omdat dit een hogere R-kwadraatwaarde heeft!
Als we echter naar de aangepaste R-kwadraatwaarden kijken, komen we tot een andere conclusie: het is beter om het eerste model te gebruiken omdat dit een hogere aangepaste R-kwadraatwaarde heeft.
Het tweede model heeft alleen een hogere R-kwadraatwaarde omdat het meer voorspellende variabelen heeft dan het eerste model.
De voorspellende variabele die we hebben toegevoegd (schoenmaat) was echter een slechte voorspeller van de eindexamenscore, dus de aangepaste R-kwadraatwaarde bestrafte het model voor het toevoegen van deze voorspellende variabele.
Dit voorbeeld illustreert waarom aangepast R-kwadraat een betere metriek is om te gebruiken bij het vergelijken van de fit van regressiemodellen met verschillende aantallen voorspellende variabelen.
Aanvullende bronnen
In de volgende tutorials wordt uitgelegd hoe u aangepaste R-kwadraatwaarden kunt berekenen met behulp van verschillende statistische software:
Hoe u het aangepaste R-kwadraat in R kunt berekenen
Hoe aangepaste R-kwadraat in Excel te berekenen
Hoe het aangepaste R-kwadraat in Python te berekenen