Rmse a r-kwadrat: jakiego wskaźnika należy użyć?

Przez Benjamin Anderson 24 lipca, 2023 Przewodnik 0 komentarzy

Modele regresji służą do ilościowego określenia związku między jedną lub większą liczbą zmiennych predykcyjnych a zmienną odpowiedzi.

Ilekroć dopasowujemy model regresji, chcemy zrozumieć, jak dobrze model „pasuje” do danych. Innymi słowy, jak dobrze model jest w stanie wykorzystać wartości zmiennych predykcyjnych do przewidzenia wartościzmiennej odpowiedzi ?

Dwie metryki, których statystycy często używają do ilościowego określenia dopasowania modelu do zbioru danych, to błąd średniokwadratowy (RMSE) i R kwadrat ( ^R2 ), które oblicza się w następujący sposób:

RMSE : metryka, która mówi nam, jak średnio przewidywane wartości różnią się od obserwowanych wartości w zbiorze danych. Im niższy RMSE, tym lepiej model pasuje do zbioru danych.

Oblicza się go w następujący sposób:

RMSE = √ Σ(P _ja – O _ja ) ² / n

Złoto:

Σ to symbol oznaczający „sumę”
_Pi jest przewidywaną wartością ^i-tej obserwacji
O _i jest obserwowaną wartością ^i-tej obserwacji
n to wielkość próbki

^R2 : Metryka, która mówi nam, jaką część wariancji zmiennej odpowiedzi modelu regresji można wyjaśnić za pomocą zmiennych predykcyjnych. Wartość ta mieści się w przedziale od 0 do 1. Im wyższa wartość ^R2 , tym lepiej model pasuje do zbioru danych.

Oblicza się go w następujący sposób:

^R2 = 1 – (RSS/TSS)

Złoto:

RSS reprezentuje sumę kwadratów reszt
TSS reprezentuje całkowitą sumę kwadratów

RMSE vs R ² : Którego wskaźnika należy użyć?

Oceniając dopasowanie modelu do zbioru danych, przydatne jest obliczenie zarówno wartości RMSE, jak i wartości ^R2 , ponieważ każda metryka mówi nam coś innego.

Z jednej strony RMSE informuje nas o typowej odległości pomiędzy wartością przewidywaną obliczoną przez model regresji a wartością prawdziwą.

Z drugiej strony R ² mówi nam, w jakim stopniu zmienne predykcyjne mogą wyjaśniać zmienność zmiennej odpowiedzi.

Załóżmy na przykład, że mamy następujący zbiór danych, który wyświetla informacje o domach w określonym mieście:

Załóżmy teraz, że chcemy użyć powierzchni kwadratowej, liczby łazienek i liczby sypialni, aby przewidzieć cenę domu.

Możemy zastosować następujący model regresji:

Cena = β ₀ + β ₁ (powierzchnia kwadratowa) + β ₂ (liczba łazienek) + β ₃ (liczba sypialni)

Załóżmy teraz, że dopasowujemy ten model, a następnie obliczamy następujące metryki, aby ocenić dobroć dopasowania modelu:

RMSE : 14,342
^R2 : 0,856

Wartość RMSE mówi nam, że średnia różnica między przewidywaną przez model ceną domu a rzeczywistą ceną domu wynosi 14 342 USD.

Wartość R ² mówi nam, że zmienne predykcyjne modelu (powierzchnia kwadratowa, liczba łazienek i liczba sypialni) są w stanie wyjaśnić 85,6% zmienności cen mieszkań.

Aby określić, czy wartości te są „dobre”, czy nie, możemy porównać te pomiary z alternatywnymi modelami.

Załóżmy na przykład, że dopasowujemy inny model regresji, który wykorzystuje inny zestaw zmiennych predykcyjnych i obliczamy dla tego modelu następujące metryki:

RMSE : 19,355
^R2 : 0,765

Widzimy, że wartość RMSE tego modelu jest wyższa niż w poprzednim modelu. Można również zauważyć, że wartość R ² tego modelu jest niższa niż w poprzednim modelu. To mówi nam, że ten model pasuje do danych słabiej niż poprzedni model.

Streszczenie

Oto główne kwestie poruszone w tym artykule:

RMSE i ^R2 określają ilościowo, jak dobrze model regresji pasuje do zbioru danych.
RMSE mówi nam, jak dobrze model regresji może przewidzieć wartość zmiennej odpowiedzi w wartościach bezwzględnych, natomiast R ² mówi nam, jak dobrze model może przewidzieć wartość zmiennej odpowiedzi w ujęciu procentowym.
Przydatne jest obliczenie zarówno RMSE, jak i ^R2 dla danego modelu, ponieważ każda metryka dostarcza nam przydatnych informacji.

Dodatkowe zasoby

Wprowadzenie do wielokrotnej regresji liniowej
R vs R-Square: jaka jest różnica?
Jaka jest dobra wartość R-kwadrat?

o autorze

Dr Benjamin Anderson

Cześć, jestem Benjamin i jestem emerytowanym profesorem statystyki, który został oddanym nauczycielem Statorials. Dzięki bogatemu doświadczeniu i wiedzy specjalistycznej w dziedzinie statystyki chętnie dzielę się swoją wiedzą, aby wzmocnić pozycję uczniów za pośrednictwem Statorials. Wiedzieć więcej

RMSE vs R 2 : Którego wskaźnika należy użyć?

Streszczenie

Dodatkowe zasoby

o autorze

Dr Benjamin Anderson

Dodaj komentarz

RMSE vs R ² : Którego wskaźnika należy użyć?