Wat is een goede r-kwadraatwaarde?
R-kwadraat meet hoe goed een lineair regressiemodel “past” in een dataset. Ook wel de determinatiecoëfficiënt genoemd, de R-kwadraat is het deel van de variantie in de responsvariabele dat kan worden verklaard door de voorspellende variabele.
De R-kwadraatwaarde kan variëren van 0 tot 1. Een waarde van 0 geeft aan dat de responsvariabele helemaal niet kan worden verklaard door de voorspellende variabele. Een waarde van 1 geeft aan dat de responsvariabele perfect en zonder fouten kan worden verklaard door de voorspellende variabele.
In de praktijk zul je voor R-kwadraat waarschijnlijk nooit een waarde van 0 of 1 tegenkomen. In plaats daarvan zult u waarschijnlijk een waarde tussen 0 en 1 tegenkomen.
Stel dat u bijvoorbeeld een dataset heeft met de bevolkingsomvang en het aantal bloemisten in 30 verschillende steden. U past een eenvoudig lineair regressiemodel aan de dataset toe, waarbij u de populatiegrootte als voorspellende variabele en bloemisten als responsvariabele gebruikt. In het resultaat van de regressieresultaten zie je dat R 2 = 0,2. Dit geeft aan dat 20% van de variatie in het aantal bloemisten kan worden verklaard door de bevolkingsomvang.
Dit brengt ons bij een belangrijke vraag: is dit een “goede” waarde voor R-kwadraat?
Het antwoord op deze vraag hangt af van uw doel voor het regressiemodel. Weten:
1. Wilt u de relatie tussen de voorspeller(s) en de responsvariabele toelichten?
GOUD
2. Wil je de responsvariabele voorspellen?
Afhankelijk van het doel zal het antwoord op de vraag „Wat is een goede waarde voor R kwadraat?“ ‚zal anders zijn.
Leg de relatie uit tussen de voorspeller(s) en de responsvariabele
Als uw primaire doel voor uw regressiemodel het verklaren van de relatie tussen de voorspeller(s) en de responsvariabele is, is de R-kwadraat vrijwel irrelevant.
Laten we bijvoorbeeld zeggen dat u in het bovenstaande regressievoorbeeld ziet dat de coëfficiënt van de voorspellende populatiegrootte 0,005 is en dat deze statistisch significant is. Dit betekent dat een toename van één bevolkingsaantal gepaard gaat met een gemiddelde toename van 0,005 in het aantal bloemisten in een bepaalde stad. Bovendien is de bevolkingsomvang een statistisch significante indicator voor het aantal bloemisten in een stad.
Of de R-kwadraatwaarde van dit regressiemodel 0,2 of 0,9 is, verandert niets aan deze interpretatie. Omdat u eenvoudigweg geïnteresseerd bent in de relatie tussen de populatiegrootte en het aantal bloemisten, hoeft u zich niet al te veel zorgen te maken over de R-kwadraatwaarde van het model.
Voorspel de responsvariabele
Als het uw primaire doel is om de waarde van de responsvariabele nauwkeurig te voorspellen met behulp van de voorspellende variabele, dan is R-kwadraat belangrijk.
In het algemeen geldt: hoe groter de R-kwadraatwaarde, hoe nauwkeuriger de voorspellende variabelen in staat zijn de waarde van de responsvariabele te voorspellen.
De vereiste waarde voor de R-kwadraatwaarde hangt af van de nauwkeurigheid die u nodig heeft. In wetenschappelijke studies kan het bijvoorbeeld nodig zijn dat de R-kwadraat groter is dan 0,95 om een regressiemodel als betrouwbaar te beschouwen. In andere gebieden kan een R-kwadraat van slechts 0,3 voldoende zijn als er sprake is van extreme variabiliteit in de dataset.
Om te weten wat als een ‘goede’ R-kwadraatwaarde wordt beschouwd, moet je onderzoeken welke R-kwadraatwaarden algemeen aanvaard worden in jouw specifieke vakgebied. Als u een regressieanalyse uitvoert voor een klant of bedrijf, kunt u hen wellicht vragen wat als een acceptabele R-kwadraatwaarde wordt beschouwd.
Voorspellingsintervallen
Een voorspellingsinterval specificeert een bereik waarbinnen een nieuwe waarneming zou kunnen vallen, op basis van de waarden van de voorspellende variabelen. Smallere voorspellingsintervallen geven aan dat de voorspellende variabelen de responsvariabele nauwkeuriger kunnen voorspellen.
Vaak kan een voorspellingsinterval nuttiger zijn dan een R-kwadraatwaarde, omdat het je een exact bereik van waarden geeft waarbinnen een nieuwe waarneming zou kunnen vallen. Dit is met name handig als uw primaire doel van regressie het voorspellen van nieuwe waarden van de responsvariabele is.
Stel bijvoorbeeld dat een bevolking van 40.000 een voorspellingsinterval van 30 tot 35 bloemisten in een bepaalde stad oplevert. Dit kan al dan niet als een acceptabel waardenbereik worden beschouwd, afhankelijk van het gebruik van het regressiemodel.
Conclusie
In het algemeen geldt: hoe groter de R-kwadraatwaarde, hoe nauwkeuriger de voorspellende variabelen in staat zijn de waarde van de responsvariabele te voorspellen.
Hoe goed een R-kwadraatwaarde moet zijn om als ‘goed’ te worden beschouwd, varieert afhankelijk van het domein. Sommige velden vereisen een hogere nauwkeurigheid dan andere.
Om erachter te komen wat als een „goede“ R-kwadraatwaarde wordt beschouwd, moet u overwegen wat algemeen geaccepteerd is in het vakgebied waarin u werkt, vraag het aan iemand met specifieke kennis op een specifiek gebied, of vraag het aan de klant/cliënt. bedrijf waarvoor u de regressieanalyse uitvoert. voor wat zij acceptabel vinden.
Als je de relatie tussen de voorspeller en de responsvariabele wilt verklaren, is R-kwadraat grotendeels irrelevant omdat het geen invloed heeft op de interpretatie van het regressiemodel.
Als u de responsvariabele wilt voorspellen, zijn voorspellingsintervallen over het algemeen nuttiger dan R-kwadraatwaarden.
Verder lezen:
Pearson-correlatiecoëfficiënt
Inleiding tot eenvoudige lineaire regressie