Jak interpretować skorygowany współczynnik r-kwadrat (z przykładami)

Przez Benjamin Anderson 19 lipca, 2023 Przewodnik 0 komentarzy

Kiedy dopasowujemy modele regresji liniowej, często obliczamy wartość R-kwadrat modelu.

Wartość R-kwadrat to proporcja wariancji zmiennej odpowiedzi , którą można wyjaśnić za pomocą zmiennych predykcyjnych w modelu.

Wartość R do kwadratu może zmieniać się od 0 do 1, gdzie:

Wartość 0 wskazuje, że zmienna odpowiedzi nie może być w ogóle wyjaśniona przez zmienne predykcyjne.
Wartość 1 wskazuje, że zmienną odpowiedzi można doskonale wyjaśnić za pomocą zmiennych predykcyjnych.

Chociaż ta metryka jest powszechnie używana do oceny dopasowania modelu regresji do zbioru danych, ma ona poważną wadę:

Wada R-kwadratu:

Wartość R-kwadrat zawsze będzie wzrastać, gdy do modelu regresji zostanie dodana nowa zmienna predykcyjna.

Nawet jeśli nowa zmienna predykcyjna nie ma prawie żadnego związku ze zmienną odpowiedzi, wartość R-kwadrat modelu wzrośnie, nawet jeśli tylko o niewielką wartość.

Z tego powodu model regresji z dużą liczbą zmiennych predykcyjnych może mieć wysoką wartość R-kwadrat, nawet jeśli model nie jest dobrze dopasowany do danych.

Na szczęście istnieje alternatywa dla R-kwadratu, zwana skorygowanym R-kwadratem .

Skorygowane R-kwadrat to zmodyfikowana wersja R-kwadrat, która dostosowuje liczbę predyktorów w modelu regresji.

Oblicza się go w następujący sposób:

Skorygowany R ² = 1 – [(1-R ² )*(n-1)/(nk-1)]

Złoto:

R ² : R ² modelu
n : Liczba obserwacji
k : Liczba zmiennych predykcyjnych

Ponieważ wartość R-kwadrat zawsze wzrasta w miarę dodawania predyktorów do modelu, skorygowana wartość R-kwadrat może określić przydatność modelu, skorygowana o liczbę predyktorów w modelu .

Zaleta skorygowanego R-kwadratu:

Skorygowany współczynnik R-kwadrat mówi nam, jak dobrze zestaw zmiennych predykcyjnych jest w stanie wyjaśnić zmienność zmiennej odpowiedzi, skorygowanej o liczbę predyktorów w modelu .

Ze względu na sposób obliczania skorygowany współczynnik R-kwadrat można wykorzystać do porównania dopasowania modeli regresji z różną liczbą zmiennych predykcyjnych.

Aby lepiej zrozumieć skorygowaną wartość R-kwadrat, zobacz poniższy przykład.

Przykład: Zrozumienie skorygowanego R-kwadratu w modelach regresji

Załóżmy, że profesor zbiera dane o uczniach w swojej klasie i dopasowuje następujący model regresji, aby zrozumieć, w jaki sposób godziny spędzone na nauce i aktualna ocena z zajęć wpływają na ocenę, jaką student otrzymuje z egzaminu końcowego.

Wynik egzaminu = β ₀ + β ₁ (godziny spędzone na nauce) + β ₂ (aktualna ocena)

Załóżmy, że ten model regresji ma następujące metryki:

R do kwadratu: 0,955
Skorygowany R-kwadrat: 0,946

Załóżmy teraz, że nauczyciel zdecyduje się zebrać dane dotyczące innej zmiennej dla każdego ucznia: rozmiaru buta.

Choć zmienna ta nie powinna mieć żadnego związku z oceną z egzaminu końcowego, postanawia zastosować następujący model regresji:

Wynik egzaminu = β ₀ + β ₁ (godziny spędzone na nauce) + β ₂ (bieżący rok) + β ₃ (rozmiar buta)

Załóżmy, że ten model regresji ma następujące metryki:

R do kwadratu: 0,965
Skorygowany R-kwadrat: 0,902

Gdybyśmy spojrzeli tylko na wartości R-kwadrat dla każdego z tych dwóch modeli regresji, doszlibyśmy do wniosku, że lepiej jest zastosować drugi model, ponieważ ma wyższą wartość R-kwadrat!

Jeśli jednak spojrzymy na skorygowane wartości R-kwadrat , dochodzimy do innego wniosku: lepiej jest zastosować pierwszy model, ponieważ ma on wyższą skorygowaną wartość R-kwadrat.

Drugi model ma wyższą wartość R-kwadrat, ponieważ ma więcej zmiennych predykcyjnych niż pierwszy model.

Jednakże dodana przez nas zmienna predykcyjna (rozmiar buta) była słabym predyktorem końcowego wyniku egzaminu, więc skorygowana wartość R-kwadrat ukarała model za dodanie tej zmiennej predykcyjnej.

Ten przykład ilustruje, dlaczego skorygowana wartość R-kwadrat jest lepszą metryką do wykorzystania przy porównywaniu dopasowania modeli regresji z różną liczbą zmiennych predykcyjnych.

Dodatkowe zasoby

Poniższe samouczki wyjaśniają, jak obliczyć skorygowane wartości R-kwadrat przy użyciu różnych programów statystycznych:

Jak obliczyć skorygowany R-kwadrat w R
Jak obliczyć skorygowany R-kwadrat w programie Excel
Jak obliczyć skorygowany R-kwadrat w Pythonie

o autorze

Dr Benjamin Anderson

Cześć, jestem Benjamin i jestem emerytowanym profesorem statystyki, który został oddanym nauczycielem Statorials. Dzięki bogatemu doświadczeniu i wiedzy specjalistycznej w dziedzinie statystyki chętnie dzielę się swoją wiedzą, aby wzmocnić pozycję uczniów za pośrednictwem Statorials. Wiedzieć więcej

Przykład: Zrozumienie skorygowanego R-kwadratu w modelach regresji

Dodatkowe zasoby

o autorze

Dr Benjamin Anderson

Dodaj komentarz