Jak wykonać test współczynnika wiarygodności w r


Test współczynnika wiarygodności porównuje dobroć dopasowania dwóch zagnieżdżonych modeli regresji.

Model zagnieżdżony to po prostu model zawierający podzbiór zmiennych predykcyjnych w ogólnym modelu regresji.

Załóżmy na przykład, że mamy następujący model regresji z czterema zmiennymi predykcyjnymi:

Y = β 0 + β 1 x 1 + β 2 x 2 + β 3 x 3 + β 4 x 4 + ε

Przykładem modelu zagnieżdżonego może być następujący model z tylko dwoma pierwotnymi zmiennymi predykcyjnymi:

Y = β 0 + β 1 x 1 + β 2 x 2 + ε

Aby ustalić, czy te dwa modele znacząco się różnią, możemy przeprowadzić test współczynnika wiarygodności, który wykorzystuje następujące hipotezy zerowe i alternatywne:

H 0 : Model pełny i model zagnieżdżony równie dobrze pasują do danych. Powinieneś więc użyć modelu zagnieżdżonego .

H A : Model pełny pasuje do danych znacznie lepiej niż model zagnieżdżony. Musisz więc użyć pełnego szablonu .

Jeśli wartość p testu jest poniżej pewnego poziomu istotności (np. 0,05), wówczas możemy odrzucić hipotezę zerową i stwierdzić, że pełny model zapewnia znacznie lepsze dopasowanie.

Poniższy przykład pokazuje, jak wykonać test współczynnika wiarygodności w R.

Przykład: Test współczynnika wiarygodności w R

Poniższy kod pokazuje, jak dopasować następujące dwa modele regresji w języku R przy użyciu danych z wbudowanego zbioru danych mtcars :

Pełny model: mpg = β 0 + β 1 dostępny + β 2 carb + β 3 KM + β 4 cyl

Model: mpg = β 0 + β 1 dostępne + β 2 węglowodany

Użyjemy funkcji lrtest() pakietu lmtest , aby przeprowadzić test współczynnika wiarygodności dla tych dwóch modeli:

 library (lmtest)

#fit full model
model_full <- lm(mpg ~ disp + carb + hp + cyl, data = mtcars)

#fit reduced model
model_reduced <- lm(mpg ~ disp + carb, data = mtcars)

#perform likelihood ratio test for differences in models
lrtest(model_full, model_reduced)

Likelihood ratio test

Model 1: mpg ~ disp + carb + hp + cyl
Model 2: mpg ~ available + carb
  #Df LogLik Df Chisq Pr(>Chisq)
1 6 -77.558                     
2 4 -78.603 -2 2.0902 0.3517

Z wyniku widzimy, że statystyka testu chi-kwadrat wynosi 2,0902 , a odpowiadająca jej wartość p wynosi 0,3517 .

Ponieważ ta wartość p jest nie mniejsza niż 0,05, nie uda nam się odrzucić hipotezy zerowej.

Oznacza to, że model pełny i model zagnieżdżony równie dobrze pasują do danych. Musimy zatem zastosować model zagnieżdżony, ponieważ dodatkowe zmienne predykcyjne w modelu pełnym nie zapewniają znaczącej poprawy dopasowania.

Następnie moglibyśmy przeprowadzić kolejny test współczynnika wiarygodności, aby określić, czy model z jedną zmienną predykcyjną znacząco różni się od modelu z obydwoma predyktorami:

 library (lmtest)

#fit full model
model_full <- lm(mpg ~ disp + carb, data = mtcars)

#fit reduced model
model_reduced <- lm(mpg ~ disp, data = mtcars)

#perform likelihood ratio test for differences in models
lrtest(model_full, model_reduced)

Likelihood ratio test

Model 1: mpg ~ available + carb
Model 2: mpg ~ available
  #Df LogLik Df Chisq Pr(>Chisq)   
1 4 -78.603                        
2 3 -82.105 -1 7.0034 0.008136 **
---
Significant. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1

Z wyniku widzimy, że wartość p testu współczynnika wiarygodności wynosi 0,008136 . Ponieważ liczba ta jest mniejsza niż 0,05, odrzucilibyśmy hipotezę zerową.

Zatem doszlibyśmy do wniosku, że model z dwoma predyktorami zapewnia znaczną poprawę dopasowania w porównaniu z modelem z jednym predyktorem.

Zatem nasz ostateczny model będzie wyglądał następująco:

mpg = β 0 + β 1 dostępne + β 2 węglowodany

Dodatkowe zasoby

Jak wykonać prostą regresję liniową w R
Jak wykonać wielokrotną regresję liniową w R
Jak interpretować kody znaczeniowe w języku R

Dodaj komentarz

Twój adres e-mail nie zostanie opublikowany. Wymagane pola są oznaczone *