Jak interpretować skorygowany współczynnik r-kwadrat (z przykładami)
Kiedy dopasowujemy modele regresji liniowej, często obliczamy wartość R-kwadrat modelu.
Wartość R-kwadrat to proporcja wariancji zmiennej odpowiedzi , którą można wyjaśnić za pomocą zmiennych predykcyjnych w modelu.
Wartość R do kwadratu może zmieniać się od 0 do 1, gdzie:
- Wartość 0 wskazuje, że zmienna odpowiedzi nie może być w ogóle wyjaśniona przez zmienne predykcyjne.
- Wartość 1 wskazuje, że zmienną odpowiedzi można doskonale wyjaśnić za pomocą zmiennych predykcyjnych.
Chociaż ta metryka jest powszechnie używana do oceny dopasowania modelu regresji do zbioru danych, ma ona poważną wadę:
Wada R-kwadratu:
Wartość R-kwadrat zawsze będzie wzrastać, gdy do modelu regresji zostanie dodana nowa zmienna predykcyjna.
Nawet jeśli nowa zmienna predykcyjna nie ma prawie żadnego związku ze zmienną odpowiedzi, wartość R-kwadrat modelu wzrośnie, nawet jeśli tylko o niewielką wartość.
Z tego powodu model regresji z dużą liczbą zmiennych predykcyjnych może mieć wysoką wartość R-kwadrat, nawet jeśli model nie jest dobrze dopasowany do danych.
Na szczęście istnieje alternatywa dla R-kwadratu, zwana skorygowanym R-kwadratem .
Skorygowane R-kwadrat to zmodyfikowana wersja R-kwadrat, która dostosowuje liczbę predyktorów w modelu regresji.
Oblicza się go w następujący sposób:
Skorygowany R 2 = 1 – [(1-R 2 )*(n-1)/(nk-1)]
Złoto:
- R 2 : R 2 modelu
- n : Liczba obserwacji
- k : Liczba zmiennych predykcyjnych
Ponieważ wartość R-kwadrat zawsze wzrasta w miarę dodawania predyktorów do modelu, skorygowana wartość R-kwadrat może określić przydatność modelu, skorygowana o liczbę predyktorów w modelu .
Zaleta skorygowanego R-kwadratu:
Skorygowany współczynnik R-kwadrat mówi nam, jak dobrze zestaw zmiennych predykcyjnych jest w stanie wyjaśnić zmienność zmiennej odpowiedzi, skorygowanej o liczbę predyktorów w modelu .
Ze względu na sposób obliczania skorygowany współczynnik R-kwadrat można wykorzystać do porównania dopasowania modeli regresji z różną liczbą zmiennych predykcyjnych.
Aby lepiej zrozumieć skorygowaną wartość R-kwadrat, zobacz poniższy przykład.
Przykład: Zrozumienie skorygowanego R-kwadratu w modelach regresji
Załóżmy, że profesor zbiera dane o uczniach w swojej klasie i dopasowuje następujący model regresji, aby zrozumieć, w jaki sposób godziny spędzone na nauce i aktualna ocena z zajęć wpływają na ocenę, jaką student otrzymuje z egzaminu końcowego.
Wynik egzaminu = β 0 + β 1 (godziny spędzone na nauce) + β 2 (aktualna ocena)
Załóżmy, że ten model regresji ma następujące metryki:
- R do kwadratu: 0,955
- Skorygowany R-kwadrat: 0,946
Załóżmy teraz, że nauczyciel zdecyduje się zebrać dane dotyczące innej zmiennej dla każdego ucznia: rozmiaru buta.
Choć zmienna ta nie powinna mieć żadnego związku z oceną z egzaminu końcowego, postanawia zastosować następujący model regresji:
Wynik egzaminu = β 0 + β 1 (godziny spędzone na nauce) + β 2 (bieżący rok) + β 3 (rozmiar buta)
Załóżmy, że ten model regresji ma następujące metryki:
- R do kwadratu: 0,965
- Skorygowany R-kwadrat: 0,902
Gdybyśmy spojrzeli tylko na wartości R-kwadrat dla każdego z tych dwóch modeli regresji, doszlibyśmy do wniosku, że lepiej jest zastosować drugi model, ponieważ ma wyższą wartość R-kwadrat!
Jeśli jednak spojrzymy na skorygowane wartości R-kwadrat , dochodzimy do innego wniosku: lepiej jest zastosować pierwszy model, ponieważ ma on wyższą skorygowaną wartość R-kwadrat.
Drugi model ma wyższą wartość R-kwadrat, ponieważ ma więcej zmiennych predykcyjnych niż pierwszy model.
Jednakże dodana przez nas zmienna predykcyjna (rozmiar buta) była słabym predyktorem końcowego wyniku egzaminu, więc skorygowana wartość R-kwadrat ukarała model za dodanie tej zmiennej predykcyjnej.
Ten przykład ilustruje, dlaczego skorygowana wartość R-kwadrat jest lepszą metryką do wykorzystania przy porównywaniu dopasowania modeli regresji z różną liczbą zmiennych predykcyjnych.
Dodatkowe zasoby
Poniższe samouczki wyjaśniają, jak obliczyć skorygowane wartości R-kwadrat przy użyciu różnych programów statystycznych:
Jak obliczyć skorygowany R-kwadrat w R
Jak obliczyć skorygowany R-kwadrat w programie Excel
Jak obliczyć skorygowany R-kwadrat w Pythonie