Jak wykonać test współczynnika wiarygodności w r
Test współczynnika wiarygodności porównuje dobroć dopasowania dwóch zagnieżdżonych modeli regresji.
Model zagnieżdżony to po prostu model zawierający podzbiór zmiennych predykcyjnych w ogólnym modelu regresji.
Załóżmy na przykład, że mamy następujący model regresji z czterema zmiennymi predykcyjnymi:
Y = β 0 + β 1 x 1 + β 2 x 2 + β 3 x 3 + β 4 x 4 + ε
Przykładem modelu zagnieżdżonego może być następujący model z tylko dwoma pierwotnymi zmiennymi predykcyjnymi:
Y = β 0 + β 1 x 1 + β 2 x 2 + ε
Aby ustalić, czy te dwa modele znacząco się różnią, możemy przeprowadzić test współczynnika wiarygodności, który wykorzystuje następujące hipotezy zerowe i alternatywne:
H 0 : Model pełny i model zagnieżdżony równie dobrze pasują do danych. Powinieneś więc użyć modelu zagnieżdżonego .
H A : Model pełny pasuje do danych znacznie lepiej niż model zagnieżdżony. Musisz więc użyć pełnego szablonu .
Jeśli wartość p testu jest poniżej pewnego poziomu istotności (np. 0,05), wówczas możemy odrzucić hipotezę zerową i stwierdzić, że pełny model zapewnia znacznie lepsze dopasowanie.
Poniższy przykład pokazuje, jak wykonać test współczynnika wiarygodności w R.
Przykład: Test współczynnika wiarygodności w R
Poniższy kod pokazuje, jak dopasować następujące dwa modele regresji w języku R przy użyciu danych z wbudowanego zbioru danych mtcars :
Pełny model: mpg = β 0 + β 1 dostępny + β 2 carb + β 3 KM + β 4 cyl
Model: mpg = β 0 + β 1 dostępne + β 2 węglowodany
Użyjemy funkcji lrtest() pakietu lmtest , aby przeprowadzić test współczynnika wiarygodności dla tych dwóch modeli:
library (lmtest) #fit full model model_full <- lm(mpg ~ disp + carb + hp + cyl, data = mtcars) #fit reduced model model_reduced <- lm(mpg ~ disp + carb, data = mtcars) #perform likelihood ratio test for differences in models lrtest(model_full, model_reduced) Likelihood ratio test Model 1: mpg ~ disp + carb + hp + cyl Model 2: mpg ~ available + carb #Df LogLik Df Chisq Pr(>Chisq) 1 6 -77.558 2 4 -78.603 -2 2.0902 0.3517
Z wyniku widzimy, że statystyka testu chi-kwadrat wynosi 2,0902 , a odpowiadająca jej wartość p wynosi 0,3517 .
Ponieważ ta wartość p jest nie mniejsza niż 0,05, nie uda nam się odrzucić hipotezy zerowej.
Oznacza to, że model pełny i model zagnieżdżony równie dobrze pasują do danych. Musimy zatem zastosować model zagnieżdżony, ponieważ dodatkowe zmienne predykcyjne w modelu pełnym nie zapewniają znaczącej poprawy dopasowania.
Następnie moglibyśmy przeprowadzić kolejny test współczynnika wiarygodności, aby określić, czy model z jedną zmienną predykcyjną znacząco różni się od modelu z obydwoma predyktorami:
library (lmtest) #fit full model model_full <- lm(mpg ~ disp + carb, data = mtcars) #fit reduced model model_reduced <- lm(mpg ~ disp, data = mtcars) #perform likelihood ratio test for differences in models lrtest(model_full, model_reduced) Likelihood ratio test Model 1: mpg ~ available + carb Model 2: mpg ~ available #Df LogLik Df Chisq Pr(>Chisq) 1 4 -78.603 2 3 -82.105 -1 7.0034 0.008136 ** --- Significant. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
Z wyniku widzimy, że wartość p testu współczynnika wiarygodności wynosi 0,008136 . Ponieważ liczba ta jest mniejsza niż 0,05, odrzucilibyśmy hipotezę zerową.
Zatem doszlibyśmy do wniosku, że model z dwoma predyktorami zapewnia znaczną poprawę dopasowania w porównaniu z modelem z jednym predyktorem.
Zatem nasz ostateczny model będzie wyglądał następująco:
mpg = β 0 + β 1 dostępne + β 2 węglowodany
Dodatkowe zasoby
Jak wykonać prostą regresję liniową w R
Jak wykonać wielokrotną regresję liniową w R
Jak interpretować kody znaczeniowe w języku R