Rmse a r-kwadrat: jakiego wskaźnika należy użyć?


Modele regresji służą do ilościowego określenia związku między jedną lub większą liczbą zmiennych predykcyjnych a zmienną odpowiedzi.

Ilekroć dopasowujemy model regresji, chcemy zrozumieć, jak dobrze model „pasuje” do danych. Innymi słowy, jak dobrze model jest w stanie wykorzystać wartości zmiennych predykcyjnych do przewidzenia wartościzmiennej odpowiedzi ?

Dwie metryki, których statystycy często używają do ilościowego określenia dopasowania modelu do zbioru danych, to błąd średniokwadratowy (RMSE) i R kwadrat ( R2 ), które oblicza się w następujący sposób:

RMSE : metryka, która mówi nam, jak średnio przewidywane wartości różnią się od obserwowanych wartości w zbiorze danych. Im niższy RMSE, tym lepiej model pasuje do zbioru danych.

Oblicza się go w następujący sposób:

RMSE = √ Σ(P ja – O ja ) 2 / n

Złoto:

  • Σ to symbol oznaczający „sumę”
  • Pi jest przewidywaną wartością i-tej obserwacji
  • O i jest obserwowaną wartością i-tej obserwacji
  • n to wielkość próbki

R2 : Metryka, która mówi nam, jaką część wariancji zmiennej odpowiedzi modelu regresji można wyjaśnić za pomocą zmiennych predykcyjnych. Wartość ta mieści się w przedziale od 0 do 1. Im wyższa wartość R2 , tym lepiej model pasuje do zbioru danych.

Oblicza się go w następujący sposób:

R2 = 1 – (RSS/TSS)

Złoto:

  • RSS reprezentuje sumę kwadratów reszt
  • TSS reprezentuje całkowitą sumę kwadratów

RMSE vs R 2 : Którego wskaźnika należy użyć?

Oceniając dopasowanie modelu do zbioru danych, przydatne jest obliczenie zarówno wartości RMSE, jak i wartości R2 , ponieważ każda metryka mówi nam coś innego.

Z jednej strony RMSE informuje nas o typowej odległości pomiędzy wartością przewidywaną obliczoną przez model regresji a wartością prawdziwą.

Z drugiej strony R 2 mówi nam, w jakim stopniu zmienne predykcyjne mogą wyjaśniać zmienność zmiennej odpowiedzi.

Załóżmy na przykład, że mamy następujący zbiór danych, który wyświetla informacje o domach w określonym mieście:

Załóżmy teraz, że chcemy użyć powierzchni kwadratowej, liczby łazienek i liczby sypialni, aby przewidzieć cenę domu.

Możemy zastosować następujący model regresji:

Cena = β 0 + β 1 (powierzchnia kwadratowa) + β 2 (liczba łazienek) + β 3 (liczba sypialni)

Załóżmy teraz, że dopasowujemy ten model, a następnie obliczamy następujące metryki, aby ocenić dobroć dopasowania modelu:

  • RMSE : 14,342
  • R2 : 0,856

Wartość RMSE mówi nam, że średnia różnica między przewidywaną przez model ceną domu a rzeczywistą ceną domu wynosi 14 342 USD.

Wartość R 2 mówi nam, że zmienne predykcyjne modelu (powierzchnia kwadratowa, liczba łazienek i liczba sypialni) są w stanie wyjaśnić 85,6% zmienności cen mieszkań.

Aby określić, czy wartości te są „dobre”, czy nie, możemy porównać te pomiary z alternatywnymi modelami.

Załóżmy na przykład, że dopasowujemy inny model regresji, który wykorzystuje inny zestaw zmiennych predykcyjnych i obliczamy dla tego modelu następujące metryki:

  • RMSE : 19,355
  • R2 : 0,765

Widzimy, że wartość RMSE tego modelu jest wyższa niż w poprzednim modelu. Można również zauważyć, że wartość R 2 tego modelu jest niższa niż w poprzednim modelu. To mówi nam, że ten model pasuje do danych słabiej niż poprzedni model.

Streszczenie

Oto główne kwestie poruszone w tym artykule:

  • RMSE i R2 określają ilościowo, jak dobrze model regresji pasuje do zbioru danych.
  • RMSE mówi nam, jak dobrze model regresji może przewidzieć wartość zmiennej odpowiedzi w wartościach bezwzględnych, natomiast R 2 mówi nam, jak dobrze model może przewidzieć wartość zmiennej odpowiedzi w ujęciu procentowym.
  • Przydatne jest obliczenie zarówno RMSE, jak i R2 dla danego modelu, ponieważ każda metryka dostarcza nam przydatnych informacji.

Dodatkowe zasoby

Wprowadzenie do wielokrotnej regresji liniowej
R vs R-Square: jaka jest różnica?
Jaka jest dobra wartość R-kwadrat?

Dodaj komentarz

Twój adres e-mail nie zostanie opublikowany. Wymagane pola są oznaczone *