Jak interpretować skorygowany współczynnik r-kwadrat (z przykładami)


Kiedy dopasowujemy modele regresji liniowej, często obliczamy wartość R-kwadrat modelu.

Wartość R-kwadrat to proporcja wariancji zmiennej odpowiedzi , którą można wyjaśnić za pomocą zmiennych predykcyjnych w modelu.

Wartość R do kwadratu może zmieniać się od 0 do 1, gdzie:

  • Wartość 0 wskazuje, że zmienna odpowiedzi nie może być w ogóle wyjaśniona przez zmienne predykcyjne.
  • Wartość 1 wskazuje, że zmienną odpowiedzi można doskonale wyjaśnić za pomocą zmiennych predykcyjnych.

Chociaż ta metryka jest powszechnie używana do oceny dopasowania modelu regresji do zbioru danych, ma ona poważną wadę:

Wada R-kwadratu:

Wartość R-kwadrat zawsze będzie wzrastać, gdy do modelu regresji zostanie dodana nowa zmienna predykcyjna.

Nawet jeśli nowa zmienna predykcyjna nie ma prawie żadnego związku ze zmienną odpowiedzi, wartość R-kwadrat modelu wzrośnie, nawet jeśli tylko o niewielką wartość.

Z tego powodu model regresji z dużą liczbą zmiennych predykcyjnych może mieć wysoką wartość R-kwadrat, nawet jeśli model nie jest dobrze dopasowany do danych.

Na szczęście istnieje alternatywa dla R-kwadratu, zwana skorygowanym R-kwadratem .

Skorygowane R-kwadrat to zmodyfikowana wersja R-kwadrat, która dostosowuje liczbę predyktorów w modelu regresji.

Oblicza się go w następujący sposób:

Skorygowany R 2 = 1 – [(1-R 2 )*(n-1)/(nk-1)]

Złoto:

  • R 2 : R 2 modelu
  • n : Liczba obserwacji
  • k : Liczba zmiennych predykcyjnych

Ponieważ wartość R-kwadrat zawsze wzrasta w miarę dodawania predyktorów do modelu, skorygowana wartość R-kwadrat może określić przydatność modelu, skorygowana o liczbę predyktorów w modelu .

Zaleta skorygowanego R-kwadratu:

Skorygowany współczynnik R-kwadrat mówi nam, jak dobrze zestaw zmiennych predykcyjnych jest w stanie wyjaśnić zmienność zmiennej odpowiedzi, skorygowanej o liczbę predyktorów w modelu .

Ze względu na sposób obliczania skorygowany współczynnik R-kwadrat można wykorzystać do porównania dopasowania modeli regresji z różną liczbą zmiennych predykcyjnych.

Aby lepiej zrozumieć skorygowaną wartość R-kwadrat, zobacz poniższy przykład.

Przykład: Zrozumienie skorygowanego R-kwadratu w modelach regresji

Załóżmy, że profesor zbiera dane o uczniach w swojej klasie i dopasowuje następujący model regresji, aby zrozumieć, w jaki sposób godziny spędzone na nauce i aktualna ocena z zajęć wpływają na ocenę, jaką student otrzymuje z egzaminu końcowego.

Wynik egzaminu = β 0 + β 1 (godziny spędzone na nauce) + β 2 (aktualna ocena)

Załóżmy, że ten model regresji ma następujące metryki:

  • R do kwadratu: 0,955
  • Skorygowany R-kwadrat: 0,946

Załóżmy teraz, że nauczyciel zdecyduje się zebrać dane dotyczące innej zmiennej dla każdego ucznia: rozmiaru buta.

Choć zmienna ta nie powinna mieć żadnego związku z oceną z egzaminu końcowego, postanawia zastosować następujący model regresji:

Wynik egzaminu = β 0 + β 1 (godziny spędzone na nauce) + β 2 (bieżący rok) + β 3 (rozmiar buta)

Załóżmy, że ten model regresji ma następujące metryki:

  • R do kwadratu: 0,965
  • Skorygowany R-kwadrat: 0,902

Gdybyśmy spojrzeli tylko na wartości R-kwadrat dla każdego z tych dwóch modeli regresji, doszlibyśmy do wniosku, że lepiej jest zastosować drugi model, ponieważ ma wyższą wartość R-kwadrat!

Jeśli jednak spojrzymy na skorygowane wartości R-kwadrat , dochodzimy do innego wniosku: lepiej jest zastosować pierwszy model, ponieważ ma on wyższą skorygowaną wartość R-kwadrat.

Drugi model ma wyższą wartość R-kwadrat, ponieważ ma więcej zmiennych predykcyjnych niż pierwszy model.

Jednakże dodana przez nas zmienna predykcyjna (rozmiar buta) była słabym predyktorem końcowego wyniku egzaminu, więc skorygowana wartość R-kwadrat ukarała model za dodanie tej zmiennej predykcyjnej.

Ten przykład ilustruje, dlaczego skorygowana wartość R-kwadrat jest lepszą metryką do wykorzystania przy porównywaniu dopasowania modeli regresji z różną liczbą zmiennych predykcyjnych.

Dodatkowe zasoby

Poniższe samouczki wyjaśniają, jak obliczyć skorygowane wartości R-kwadrat przy użyciu różnych programów statystycznych:

Jak obliczyć skorygowany R-kwadrat w R
Jak obliczyć skorygowany R-kwadrat w programie Excel
Jak obliczyć skorygowany R-kwadrat w Pythonie

Dodaj komentarz

Twój adres e-mail nie zostanie opublikowany. Wymagane pola są oznaczone *