Rmse a r-kwadrat: jakiego wskaźnika należy użyć?
Modele regresji służą do ilościowego określenia związku między jedną lub większą liczbą zmiennych predykcyjnych a zmienną odpowiedzi.
Ilekroć dopasowujemy model regresji, chcemy zrozumieć, jak dobrze model „pasuje” do danych. Innymi słowy, jak dobrze model jest w stanie wykorzystać wartości zmiennych predykcyjnych do przewidzenia wartościzmiennej odpowiedzi ?
Dwie metryki, których statystycy często używają do ilościowego określenia dopasowania modelu do zbioru danych, to błąd średniokwadratowy (RMSE) i R kwadrat ( R2 ), które oblicza się w następujący sposób:
RMSE : metryka, która mówi nam, jak średnio przewidywane wartości różnią się od obserwowanych wartości w zbiorze danych. Im niższy RMSE, tym lepiej model pasuje do zbioru danych.
Oblicza się go w następujący sposób:
RMSE = √ Σ(P ja – O ja ) 2 / n
Złoto:
- Σ to symbol oznaczający „sumę”
- Pi jest przewidywaną wartością i-tej obserwacji
- O i jest obserwowaną wartością i-tej obserwacji
- n to wielkość próbki
R2 : Metryka, która mówi nam, jaką część wariancji zmiennej odpowiedzi modelu regresji można wyjaśnić za pomocą zmiennych predykcyjnych. Wartość ta mieści się w przedziale od 0 do 1. Im wyższa wartość R2 , tym lepiej model pasuje do zbioru danych.
Oblicza się go w następujący sposób:
R2 = 1 – (RSS/TSS)
Złoto:
- RSS reprezentuje sumę kwadratów reszt
- TSS reprezentuje całkowitą sumę kwadratów
RMSE vs R 2 : Którego wskaźnika należy użyć?
Oceniając dopasowanie modelu do zbioru danych, przydatne jest obliczenie zarówno wartości RMSE, jak i wartości R2 , ponieważ każda metryka mówi nam coś innego.
Z jednej strony RMSE informuje nas o typowej odległości pomiędzy wartością przewidywaną obliczoną przez model regresji a wartością prawdziwą.
Z drugiej strony R 2 mówi nam, w jakim stopniu zmienne predykcyjne mogą wyjaśniać zmienność zmiennej odpowiedzi.
Załóżmy na przykład, że mamy następujący zbiór danych, który wyświetla informacje o domach w określonym mieście:
Załóżmy teraz, że chcemy użyć powierzchni kwadratowej, liczby łazienek i liczby sypialni, aby przewidzieć cenę domu.
Możemy zastosować następujący model regresji:
Cena = β 0 + β 1 (powierzchnia kwadratowa) + β 2 (liczba łazienek) + β 3 (liczba sypialni)
Załóżmy teraz, że dopasowujemy ten model, a następnie obliczamy następujące metryki, aby ocenić dobroć dopasowania modelu:
- RMSE : 14,342
- R2 : 0,856
Wartość RMSE mówi nam, że średnia różnica między przewidywaną przez model ceną domu a rzeczywistą ceną domu wynosi 14 342 USD.
Wartość R 2 mówi nam, że zmienne predykcyjne modelu (powierzchnia kwadratowa, liczba łazienek i liczba sypialni) są w stanie wyjaśnić 85,6% zmienności cen mieszkań.
Aby określić, czy wartości te są „dobre”, czy nie, możemy porównać te pomiary z alternatywnymi modelami.
Załóżmy na przykład, że dopasowujemy inny model regresji, który wykorzystuje inny zestaw zmiennych predykcyjnych i obliczamy dla tego modelu następujące metryki:
- RMSE : 19,355
- R2 : 0,765
Widzimy, że wartość RMSE tego modelu jest wyższa niż w poprzednim modelu. Można również zauważyć, że wartość R 2 tego modelu jest niższa niż w poprzednim modelu. To mówi nam, że ten model pasuje do danych słabiej niż poprzedni model.
Streszczenie
Oto główne kwestie poruszone w tym artykule:
- RMSE i R2 określają ilościowo, jak dobrze model regresji pasuje do zbioru danych.
- RMSE mówi nam, jak dobrze model regresji może przewidzieć wartość zmiennej odpowiedzi w wartościach bezwzględnych, natomiast R 2 mówi nam, jak dobrze model może przewidzieć wartość zmiennej odpowiedzi w ujęciu procentowym.
- Przydatne jest obliczenie zarówno RMSE, jak i R2 dla danego modelu, ponieważ każda metryka dostarcza nam przydatnych informacji.
Dodatkowe zasoby
Wprowadzenie do wielokrotnej regresji liniowej
R vs R-Square: jaka jest różnica?
Jaka jest dobra wartość R-kwadrat?