Як виконати тест співвідношення ймовірності в r
Перевірка співвідношення правдоподібності порівнює відповідність двох вкладених регресійних моделей.
Вкладена модель — це просто модель, яка містить підмножину змінних предикторів у загальній моделі регресії.
Наприклад, припустімо, що ми маємо таку модель регресії з чотирма змінними предикторів:
Y = β 0 + β 1 x 1 + β 2 x 2 + β 3 x 3 + β 4 x 4 + ε
Прикладом вкладеної моделі може бути наступна модель лише з двома початковими змінними предиктора:
Y = β 0 + β 1 x 1 + β 2 x 2 + ε
Щоб визначити, чи суттєво відрізняються ці дві моделі, ми можемо виконати перевірку співвідношення правдоподібності, яка використовує такі нульові та альтернативні гіпотези:
H 0 : повна модель і вкладена модель однаково добре відповідають даним. Отже, вам слід використовувати вкладену модель .
H A : повна модель відповідає даним значно краще, ніж вкладена модель. Отже, ви повинні використовувати повний шаблон .
Якщо p-значення тесту нижче певного рівня значущості (наприклад, 0,05), тоді ми можемо відхилити нульову гіпотезу та зробити висновок, що повна модель забезпечує значно кращу відповідність.
У наступному прикладі показано, як виконати перевірку співвідношення ймовірності в R.
Приклад: Тест співвідношення правдоподібності в R
У наведеному нижче коді показано, як підігнати наступні дві регресійні моделі в R, використовуючи дані з вбудованого набору даних mtcars :
Повна модель: mpg = β 0 + β 1 доступний + β 2 вуглеводів + β 3 к.с. + β 4 цил.
Модель: mpg = β 0 + β 1 доступний + β 2 вуглеводів
Ми використаємо функцію lrtest() пакету lmtest , щоб виконати перевірку співвідношення правдоподібності на цих двох моделях:
library (lmtest) #fit full model model_full <- lm(mpg ~ disp + carb + hp + cyl, data = mtcars) #fit reduced model model_reduced <- lm(mpg ~ disp + carb, data = mtcars) #perform likelihood ratio test for differences in models lrtest(model_full, model_reduced) Likelihood ratio test Model 1: mpg ~ disp + carb + hp + cyl Model 2: mpg ~ available + carb #Df LogLik Df Chisq Pr(>Chisq) 1 6 -77.558 2 4 -78.603 -2 2.0902 0.3517
З результату ми бачимо, що статистика хі-квадрат становить 2,0902 , а відповідне значення p — 0,3517 .
Оскільки це p-значення не менше 0,05, ми не зможемо відхилити нульову гіпотезу.
Це означає, що повна модель і вкладена модель однаково добре відповідають даним. Тому ми повинні використовувати вкладену модель, тому що додаткові змінні предикторів у повній моделі не забезпечують значного покращення відповідності.
Потім ми можемо виконати ще один тест співвідношення правдоподібності, щоб визначити, чи суттєво відрізняється модель з однією змінною предиктора від моделі з обома предикторами:
library (lmtest) #fit full model model_full <- lm(mpg ~ disp + carb, data = mtcars) #fit reduced model model_reduced <- lm(mpg ~ disp, data = mtcars) #perform likelihood ratio test for differences in models lrtest(model_full, model_reduced) Likelihood ratio test Model 1: mpg ~ available + carb Model 2: mpg ~ available #Df LogLik Df Chisq Pr(>Chisq) 1 4 -78.603 2 3 -82.105 -1 7.0034 0.008136 ** --- Significant. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
З результату ми бачимо, що p-значення тесту співвідношення правдоподібності становить 0,008136 . Оскільки це число менше 0,05, ми б відхилили нульову гіпотезу.
Таким чином, ми могли б зробити висновок, що модель із двома предикторами забезпечує значне покращення відповідності порівняно з моделлю з одним предиктором.
Отже, наша кінцева модель буде такою:
mpg = β 0 + β 1 доступний + β 2 вуглеводів
Додаткові ресурси
Як виконати просту лінійну регресію в R
Як виконати множинну лінійну регресію в R
Як інтерпретувати коди значення в R