Rmse versus r-kwadraat: welke maatstaf moet u gebruiken?


Regressiemodellen worden gebruikt om de relatie tussen een of meer voorspellende variabelen en een responsvariabele te kwantificeren.

Wanneer we een regressiemodel passen, willen we begrijpen hoe goed het model bij de gegevens past. Met andere woorden: hoe goed is het model in staat de waarden van de voorspellende variabelen te gebruiken om de waarde van deresponsvariabele te voorspellen?

Twee maatstaven die statistici vaak gebruiken om te kwantificeren hoe goed een model bij een dataset past, zijn de root mean square error (RMSE) en R kwadraat ( R2 ), die als volgt worden berekend:

RMSE : een metriek die ons vertelt hoe ver de voorspelde waarden gemiddeld verwijderd zijn van de waargenomen waarden in een dataset. Hoe lager de RMSE, hoe beter een model bij een dataset past.

Het wordt als volgt berekend:

RMSE = √ Σ(P ik – O ik ) 2 / n

Goud:

  • Σ is een symbool dat “som” betekent
  • Pi is de voorspelde waarde voor de i- de waarneming
  • O i is de waargenomen waarde voor de i- de waarneming
  • n is de steekproefomvang

R 2 : Een metriek die ons vertelt hoeveel van de variantie in de responsvariabele van een regressiemodel kan worden verklaard door de voorspellende variabelen. Deze waarde ligt tussen 0 en 1. Hoe hoger de R 2 -waarde, hoe beter het model bij een set gegevens past.

Het wordt als volgt berekend:

R2 = 1 – (RSS/TSS)

Goud:

  • RSS vertegenwoordigt de som van de kwadraten van de residuen
  • TSS vertegenwoordigt de totale som van kwadraten

RMSE versus R 2 : welke maatstaf moet u gebruiken?

Bij het evalueren van de fit van een model met een dataset is het nuttig om zowel de RMSE-waarde als de R 2- waarde te berekenen, omdat elke metriek ons iets anders vertelt.

Aan de ene kant vertelt RMSE ons de typische afstand tussen de voorspelde waarde van het regressiemodel en de werkelijke waarde.

Aan de andere kant vertelt R 2 ons in welke mate de voorspellende variabelen de variatie in de responsvariabele kunnen verklaren.

Stel dat we bijvoorbeeld de volgende dataset hebben die informatie weergeeft over huizen in een bepaalde stad:

Laten we nu zeggen dat we vierkante meters, het aantal badkamers en het aantal slaapkamers willen gebruiken om de prijs van een huis te voorspellen.

We kunnen het volgende regressiemodel aanpassen:

Prijs = β 0 + β 1 (vierkante meters) + β 2 (# badkamers) + β 3 (# slaapkamers)

Stel nu dat we dit model passen en vervolgens de volgende statistieken berekenen om de goede pasvorm van het model te evalueren:

  • RMSE : 14.342
  • R2 : 0,856

De RMSE- waarde vertelt ons dat het gemiddelde verschil tussen de voorspelde huizenprijs van het model en de werkelijke huizenprijs $14.342 bedraagt.

De R 2 -waarde vertelt ons dat de voorspellende variabelen van het model (vierkante meters, aantal badkamers en aantal slaapkamers) 85,6% van de variatie in de huizenprijzen kunnen verklaren.

Om te bepalen of deze waarden ‘goed’ zijn of niet, kunnen we deze metingen vergelijken met alternatieve modellen.

Stel dat we bijvoorbeeld een ander regressiemodel passen dat een andere set voorspellende variabelen gebruikt en de volgende statistieken voor dat model berekenen:

  • RMSE : 19.355
  • R2 : 0,765

We kunnen zien dat de RMSE-waarde van dit model hoger is dan die van het vorige model. Ook is te zien dat de R2- waarde van dit model lager is dan die van het vorige model. Dit vertelt ons dat dit model minder goed bij de gegevens past dan het vorige model.

Samenvatting

Dit zijn de belangrijkste punten die in dit artikel naar voren worden gebracht:

  • RMSE en R 2 kwantificeren hoe goed een regressiemodel bij een dataset past.
  • De RMSE vertelt ons hoe goed een regressiemodel de waarde van de responsvariabele in absolute termen kan voorspellen, terwijl R 2 ons vertelt hoe goed een model de waarde van de responsvariabele in procentuele termen kan voorspellen.
  • Het is nuttig om zowel de RMSE als de R2 voor een bepaald model te berekenen, omdat elke metriek ons nuttige informatie geeft.

Aanvullende bronnen

Inleiding tot meervoudige lineaire regressie
R versus R-Square: wat is het verschil?
Wat is een goede R-kwadraatwaarde?

Einen Kommentar hinzufügen

Deine E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind mit * markiert