R에서 우도비 테스트를 수행하는 방법
우도비 테스트는 두 개의 중첩 회귀 모델의 적합도를 비교합니다.
중첩 모델은 단순히 전체 회귀 모델에서 예측 변수의 하위 집합을 포함하는 모델입니다.
예를 들어, 4개의 예측 변수가 있는 다음과 같은 회귀 모델이 있다고 가정합니다.
Y = β 0 + β 1 x 1 + β 2 x 2 + β 3 x 3 + β 4 x 4 + ε
중첩 모델의 예는 원래 예측 변수가 2개만 있는 다음 모델입니다.
Y = β 0 + β 1 x 1 + β 2 x 2 + ε
이 두 모델이 크게 다른지 확인하기 위해 다음과 같은 귀무 가설과 대립 가설을 사용하는 우도 비율 테스트를 수행할 수 있습니다.
H 0 : 전체 모델과 중첩 모델이 데이터를 동일하게 잘 적합합니다. 따라서 중첩 모델을 사용해야 합니다.
H A : 전체 모델이 중첩 모델보다 데이터에 훨씬 더 잘 맞습니다. 따라서 전체 템플릿을 사용해야 합니다.
테스트의 p-값이 특정 유의 수준(예: 0.05)보다 낮으면 귀무 가설을 기각하고 전체 모델이 훨씬 더 나은 적합성을 제공한다는 결론을 내릴 수 있습니다.
다음 예에서는 R에서 우도 비율 테스트를 수행하는 방법을 보여줍니다.
예: R의 우도비 검정
다음 코드는 내장된 mtcars 데이터 세트의 데이터를 사용하여 R에서 다음 두 가지 회귀 모델을 맞추는 방법을 보여줍니다.
전체 모델: mpg = β 0 + β 1 사용 가능 + β 2 탄수화물 + β 3 hp + β 4 실린더
모델: mpg = β 0 + β 1 사용 가능 + β 2 탄수화물
lmtest 패키지의 lrtest() 함수를 사용하여 다음 두 모델에 대한 우도 비율 테스트를 수행합니다.
library (lmtest) #fit full model model_full <- lm(mpg ~ disp + carb + hp + cyl, data = mtcars) #fit reduced model model_reduced <- lm(mpg ~ disp + carb, data = mtcars) #perform likelihood ratio test for differences in models lrtest(model_full, model_reduced) Likelihood ratio test Model 1: mpg ~ disp + carb + hp + cyl Model 2: mpg ~ available + carb #Df LogLik Df Chisq Pr(>Chisq) 1 6 -77.558 2 4 -78.603 -2 2.0902 0.3517
결과에서 카이제곱 검정 통계량은 2.0902 이고 해당 p-값은 0.3517 임을 알 수 있습니다.
이 p-값은 0.05 이상이므로 귀무가설을 기각할 수 없습니다.
이는 전체 모델과 중첩 모델이 데이터에 동일하게 잘 적합하다는 것을 의미합니다. 따라서 전체 모델의 추가 예측 변수가 적합도를 크게 향상시키지 못하므로 중첩 모델을 사용해야 합니다.
그런 다음 단일 예측 변수가 있는 모델이 두 예측 변수가 있는 모델과 크게 다른지 여부를 확인하기 위해 또 다른 우도 비 테스트를 수행할 수 있습니다.
library (lmtest) #fit full model model_full <- lm(mpg ~ disp + carb, data = mtcars) #fit reduced model model_reduced <- lm(mpg ~ disp, data = mtcars) #perform likelihood ratio test for differences in models lrtest(model_full, model_reduced) Likelihood ratio test Model 1: mpg ~ available + carb Model 2: mpg ~ available #Df LogLik Df Chisq Pr(>Chisq) 1 4 -78.603 2 3 -82.105 -1 7.0034 0.008136 ** --- Significant. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
결과를 보면 우도비 검정의 p값이 0.008136 임을 알 수 있다. 이 숫자는 0.05보다 작으므로 귀무가설을 기각합니다.
따라서 우리는 두 예측 변수 모델이 단일 예측 변수 모델에 비해 적합도에서 상당한 개선을 제공한다는 결론을 내릴 수 있습니다.
따라서 최종 모델은 다음과 같습니다.
mpg = β 0 + β 1 사용 가능 + β 2 탄수화물
추가 리소스
R에서 단순 선형 회귀를 수행하는 방법
R에서 다중 선형 회귀를 수행하는 방법
R의 의미 코드를 해석하는 방법