Як виконати тест співвідношення ймовірності в r


Перевірка співвідношення правдоподібності порівнює відповідність двох вкладених регресійних моделей.

Вкладена модель — це просто модель, яка містить підмножину змінних предикторів у загальній моделі регресії.

Наприклад, припустімо, що ми маємо таку модель регресії з чотирма змінними предикторів:

Y = β 0 + β 1 x 1 + β 2 x 2 + β 3 x 3 + β 4 x 4 + ε

Прикладом вкладеної моделі може бути наступна модель лише з двома початковими змінними предиктора:

Y = β 0 + β 1 x 1 + β 2 x 2 + ε

Щоб визначити, чи суттєво відрізняються ці дві моделі, ми можемо виконати перевірку співвідношення правдоподібності, яка використовує такі нульові та альтернативні гіпотези:

H 0 : повна модель і вкладена модель однаково добре відповідають даним. Отже, вам слід використовувати вкладену модель .

H A : повна модель відповідає даним значно краще, ніж вкладена модель. Отже, ви повинні використовувати повний шаблон .

Якщо p-значення тесту нижче певного рівня значущості (наприклад, 0,05), тоді ми можемо відхилити нульову гіпотезу та зробити висновок, що повна модель забезпечує значно кращу відповідність.

У наступному прикладі показано, як виконати перевірку співвідношення ймовірності в R.

Приклад: Тест співвідношення правдоподібності в R

У наведеному нижче коді показано, як підігнати наступні дві регресійні моделі в R, використовуючи дані з вбудованого набору даних mtcars :

Повна модель: mpg = β 0 + β 1 доступний + β 2 вуглеводів + β 3 к.с. + β 4 цил.

Модель: mpg = β 0 + β 1 доступний + β 2 вуглеводів

Ми використаємо функцію lrtest() пакету lmtest , щоб виконати перевірку співвідношення правдоподібності на цих двох моделях:

 library (lmtest)

#fit full model
model_full <- lm(mpg ~ disp + carb + hp + cyl, data = mtcars)

#fit reduced model
model_reduced <- lm(mpg ~ disp + carb, data = mtcars)

#perform likelihood ratio test for differences in models
lrtest(model_full, model_reduced)

Likelihood ratio test

Model 1: mpg ~ disp + carb + hp + cyl
Model 2: mpg ~ available + carb
  #Df LogLik Df Chisq Pr(>Chisq)
1 6 -77.558                     
2 4 -78.603 -2 2.0902 0.3517

З результату ми бачимо, що статистика хі-квадрат становить 2,0902 , а відповідне значення p — 0,3517 .

Оскільки це p-значення не менше 0,05, ми не зможемо відхилити нульову гіпотезу.

Це означає, що повна модель і вкладена модель однаково добре відповідають даним. Тому ми повинні використовувати вкладену модель, тому що додаткові змінні предикторів у повній моделі не забезпечують значного покращення відповідності.

Потім ми можемо виконати ще один тест співвідношення правдоподібності, щоб визначити, чи суттєво відрізняється модель з однією змінною предиктора від моделі з обома предикторами:

 library (lmtest)

#fit full model
model_full <- lm(mpg ~ disp + carb, data = mtcars)

#fit reduced model
model_reduced <- lm(mpg ~ disp, data = mtcars)

#perform likelihood ratio test for differences in models
lrtest(model_full, model_reduced)

Likelihood ratio test

Model 1: mpg ~ available + carb
Model 2: mpg ~ available
  #Df LogLik Df Chisq Pr(>Chisq)   
1 4 -78.603                        
2 3 -82.105 -1 7.0034 0.008136 **
---
Significant. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1

З результату ми бачимо, що p-значення тесту співвідношення правдоподібності становить 0,008136 . Оскільки це число менше 0,05, ми б відхилили нульову гіпотезу.

Таким чином, ми могли б зробити висновок, що модель із двома предикторами забезпечує значне покращення відповідності порівняно з моделлю з одним предиктором.

Отже, наша кінцева модель буде такою:

mpg = β 0 + β 1 доступний + β 2 вуглеводів

Додаткові ресурси

Як виконати просту лінійну регресію в R
Як виконати множинну лінійну регресію в R
Як інтерпретувати коди значення в R

Додати коментар

Ваша e-mail адреса не оприлюднюватиметься. Обов’язкові поля позначені *