R에서 우도비 테스트를 수행하는 방법


우도비 테스트는 두 개의 중첩 회귀 모델의 적합도를 비교합니다.

중첩 모델은 단순히 전체 회귀 모델에서 예측 변수의 하위 집합을 포함하는 모델입니다.

예를 들어, 4개의 예측 변수가 있는 다음과 같은 회귀 모델이 있다고 가정합니다.

Y = β 0 + β 1 x 1 + β 2 x 2 + β 3 x 3 + β 4 x 4 + ε

중첩 모델의 예는 원래 예측 변수가 2개만 있는 다음 모델입니다.

Y = β 0 + β 1 x 1 + β 2 x 2 + ε

이 두 모델이 크게 다른지 확인하기 위해 다음과 같은 귀무 가설과 대립 가설을 사용하는 우도 비율 테스트를 수행할 수 있습니다.

H 0 : 전체 모델과 중첩 모델이 데이터를 동일하게 잘 적합합니다. 따라서 중첩 모델을 사용해야 합니다.

H A : 전체 모델이 중첩 모델보다 데이터에 훨씬 더 잘 맞습니다. 따라서 전체 템플릿을 사용해야 합니다.

테스트의 p-값이 특정 유의 수준(예: 0.05)보다 낮으면 귀무 가설을 기각하고 전체 모델이 훨씬 더 나은 적합성을 제공한다는 결론을 내릴 수 있습니다.

다음 예에서는 R에서 우도 비율 테스트를 수행하는 방법을 보여줍니다.

예: R의 우도비 검정

다음 코드는 내장된 mtcars 데이터 세트의 데이터를 사용하여 R에서 다음 두 가지 회귀 모델을 맞추는 방법을 보여줍니다.

전체 모델: mpg = β 0 + β 1 사용 가능 + β 2 탄수화물 + β 3 hp + β 4 실린더

모델: mpg = β 0 + β 1 사용 가능 + β 2 탄수화물

lmtest 패키지의 lrtest() 함수를 사용하여 다음 두 모델에 대한 우도 비율 테스트를 수행합니다.

 library (lmtest)

#fit full model
model_full <- lm(mpg ~ disp + carb + hp + cyl, data = mtcars)

#fit reduced model
model_reduced <- lm(mpg ~ disp + carb, data = mtcars)

#perform likelihood ratio test for differences in models
lrtest(model_full, model_reduced)

Likelihood ratio test

Model 1: mpg ~ disp + carb + hp + cyl
Model 2: mpg ~ available + carb
  #Df LogLik Df Chisq Pr(>Chisq)
1 6 -77.558                     
2 4 -78.603 -2 2.0902 0.3517

결과에서 카이제곱 검정 통계량은 2.0902 이고 해당 p-값은 0.3517 임을 알 수 있습니다.

이 p-값은 0.05 이상이므로 귀무가설을 기각할 수 없습니다.

이는 전체 모델과 중첩 모델이 데이터에 동일하게 잘 적합하다는 것을 의미합니다. 따라서 전체 모델의 추가 예측 변수가 적합도를 크게 향상시키지 못하므로 중첩 모델을 사용해야 합니다.

그런 다음 단일 예측 변수가 있는 모델이 두 예측 변수가 있는 모델과 크게 다른지 여부를 확인하기 위해 또 다른 우도 비 테스트를 수행할 수 있습니다.

 library (lmtest)

#fit full model
model_full <- lm(mpg ~ disp + carb, data = mtcars)

#fit reduced model
model_reduced <- lm(mpg ~ disp, data = mtcars)

#perform likelihood ratio test for differences in models
lrtest(model_full, model_reduced)

Likelihood ratio test

Model 1: mpg ~ available + carb
Model 2: mpg ~ available
  #Df LogLik Df Chisq Pr(>Chisq)   
1 4 -78.603                        
2 3 -82.105 -1 7.0034 0.008136 **
---
Significant. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1

결과를 보면 우도비 검정의 p값이 0.008136 임을 알 수 있다. 이 숫자는 0.05보다 작으므로 귀무가설을 기각합니다.

따라서 우리는 두 예측 변수 모델이 단일 예측 변수 모델에 비해 적합도에서 상당한 개선을 제공한다는 결론을 내릴 수 있습니다.

따라서 최종 모델은 다음과 같습니다.

mpg = β 0 + β 1 사용 가능 + β 2 탄수화물

추가 리소스

R에서 단순 선형 회귀를 수행하는 방법
R에서 다중 선형 회귀를 수행하는 방법
R의 의미 코드를 해석하는 방법

의견을 추가하다

이메일 주소는 공개되지 않습니다. 필수 필드는 *로 표시됩니다