Jaka jest dobra wartość r-kwadrat?
R-kwadrat mierzy, jak dobrze model regresji liniowej „pasuje” do zbioru danych. R-kwadrat, nazywany również powszechnie współczynnikiem determinacji , to proporcja wariancji zmiennej odpowiedzi, którą można wyjaśnić za pomocą zmiennej predykcyjnej.
Wartość R-kwadrat może mieścić się w zakresie od 0 do 1. Wartość 0 oznacza, że zmiennej odpowiedzi nie można w ogóle wyjaśnić za pomocą zmiennej predykcyjnej. Wartość 1 wskazuje, że zmienna odpowiedzi może być doskonale i bezbłędnie wyjaśniona przez zmienną predykcyjną.
W praktyce prawdopodobnie nigdy nie zobaczysz wartości 0 lub 1 dla R-kwadratu. Zamiast tego prawdopodobnie napotkasz wartość z zakresu od 0 do 1.
Załóżmy na przykład, że masz zbiór danych zawierający wielkość populacji i liczbę kwiaciarni w 30 różnych miastach. Do zbioru danych dopasowujesz prosty model regresji liniowej, używając wielkości populacji jako zmiennej predykcyjnej i kwiaciarni jako zmiennej odpowiedzi. W wyniku wyników regresji widać, że R 2 = 0,2. Oznacza to, że 20% zróżnicowania liczby kwiaciarni można wytłumaczyć wielkością populacji.
To prowadzi nas do ważnego pytania: czy jest to „dobra” wartość współczynnika R-kwadrat?
Odpowiedź na to pytanie zależy od celu modelu regresji. Wiedzieć:
1. Czy chciałbyś wyjaśnić związek pomiędzy predyktorem(ami) a zmienną odpowiedzi?
ZŁOTO
2. Czy chcesz przewidzieć zmienną odpowiedzi?
W zależności od celu, odpowiedź na pytanie „Jaka jest dobra wartość R do kwadratu?” ” będzie inny.
Wyjaśnij związek pomiędzy predyktorem(ami) a zmienną odpowiedzi
Jeśli głównym celem modelu regresji jest wyjaśnienie związku pomiędzy predyktorem(ami) a zmienną odpowiedzi, współczynnik R-kwadrat jest praktycznie nieistotny.
Załóżmy na przykład, że w powyższym przykładzie regresji widać, że współczynnik przewidywanej wielkości populacji wynosi 0,005 i jest on statystycznie istotny. Oznacza to, że wzrost liczby ludności o jeden wiąże się ze średnim wzrostem liczby kwiaciarni w danym mieście o 0,005. Dodatkowo wielkość populacji jest istotnym statystycznie wskaźnikiem liczby kwiaciarni w mieście.
To, czy wartość R-kwadrat tego modelu regresji wynosi 0,2 czy 0,9, nie zmienia tej interpretacji. Ponieważ interesuje Cię po prostu związek między wielkością populacji a liczbą kwiaciarni, nie musisz się zbytnio martwić wartością R-kwadrat modelu.
Przewiduj zmienną odpowiedzi
Jeśli Twoim głównym celem jest dokładne przewidzenie wartości zmiennej odpowiedzi za pomocą zmiennej predykcyjnej, ważna jest wartość R-kwadrat.
Ogólnie rzecz biorąc, im większa wartość R-kwadrat, tym dokładniej zmienne predykcyjne są w stanie przewidzieć wartość zmiennej odpowiedzi.
Wartość wymagana dla wartości R-kwadrat zależy od wymaganej precyzji. Na przykład w badaniach naukowych może być konieczne, aby współczynnik R-kwadrat był większy niż 0,95, aby model regresji można było uznać za wiarygodny. W innych obszarach R kwadrat wynoszący zaledwie 0,3 może być wystarczający, jeśli w zbiorze danych występuje ekstremalna zmienność.
Aby dowiedzieć się, co jest uważane za „dobrą” wartość R-kwadrat, musisz zbadać, jakie wartości R-kwadrat są ogólnie akceptowane na Twoim konkretnym kierunku studiów. Jeśli przeprowadzasz analizę regresji dla klienta lub firmy, możesz zapytać ich, co jest uważane za akceptowalną wartość R-kwadrat.
Przedziały przewidywania
Przedział przewidywania określa zakres, w jakim może mieścić się nowa obserwacja, na podstawie wartości zmiennych predykcyjnych. Węższe przedziały predykcji wskazują, że zmienne predykcyjne mogą dokładniej przewidzieć zmienną odpowiedzi.
Często przedział przewidywania może być bardziej przydatny niż wartość R-kwadrat, ponieważ daje dokładny zakres wartości, w którym może mieścić się nowa obserwacja. Jest to szczególnie przydatne, jeśli głównym celem regresji jest przewidzenie nowych wartości zmiennej odpowiedzi.
Załóżmy na przykład, że populacja licząca 40 000 mieszkańców daje przedział prognozy wynoszący od 30 do 35 kwiaciarni w danym mieście. Można to uznać za akceptowalny zakres wartości lub nie, w zależności od zastosowania modelu regresji.
Wniosek
Ogólnie rzecz biorąc, im większa wartość R-kwadrat, tym dokładniej zmienne predykcyjne są w stanie przewidzieć wartość zmiennej odpowiedzi.
To, jak dobra musi być wartość R-kwadrat, aby można ją było uznać za „dobrą”, różni się w zależności od domeny. Niektóre pola wymagają większej precyzji niż inne.
Aby dowiedzieć się, co jest uważane za „dobrą” wartość R-kwadrat, zastanów się, co jest ogólnie przyjęte w dziedzinie, w której pracujesz, zapytaj osobę posiadającą konkretną wiedzę w konkretnej dziedzinie lub zapytaj klienta/klienta. firmę, dla której przeprowadzasz analizę regresji. za to, co uważają za akceptowalne.
Jeśli chcesz wyjaśnić związek między predyktorem a zmienną odpowiedzi, R-kwadrat jest w dużej mierze nieistotny, ponieważ nie ma wpływu na interpretację modelu regresji.
Jeśli chcesz przewidzieć zmienną odpowiedzi, przedziały przewidywania są na ogół bardziej przydatne niż wartości R-kwadrat.
Dalsza lektura:
Współczynnik korelacji Pearsona
Wprowadzenie do prostej regresji liniowej