Як інтерпретувати значення логарифмічної ймовірності (з прикладами)
Значення логарифмічної ймовірності регресійної моделі є способом вимірювання відповідності моделі. Чим вище значення логарифмічної правдоподібності, тим краще модель відповідає набору даних.
Значення логарифмічної правдоподібності для даної моделі може коливатися від негативної до позитивної нескінченності. Фактичне значення логарифмічної правдоподібності для даної моделі, як правило, не має сенсу, але воно корисне для порівняння двох або більше моделей .
На практиці ми часто підбираємо кілька регресійних моделей до набору даних і вибираємо модель із найвищим значенням логарифмічної ймовірності як модель, яка найкраще відповідає даним.
У наступному прикладі показано, як на практиці інтерпретувати значення логарифмічної правдоподібності для різних регресійних моделей.
Приклад: Інтерпретація значень логарифмічної ймовірності
Припустімо, у нас є такий набір даних, який показує кількість спалень, кількість ванних кімнат і ціни продажу 20 різних будинків у певному районі:
Припустімо, ми хочемо підібрати наступні дві моделі регресії та визначити, яка з них найкраще відповідає даним:
Модель 1 : Ціна = β 0 + β 1 (кількість кімнат)
Модель 2 : Ціна = β 0 + β 1 (кількість ванних кімнат)
Наступний код показує, як підібрати кожну регресійну модель і обчислити значення логарифмічної ймовірності кожної моделі в R:
#define data df <- data. frame (beds=c(1, 1, 1, 2, 2, 2, 2, 3, 3, 3, 3, 3, 3, 3, 4, 4, 4, 5, 5, 6), baths=c(2, 1, 4, 3, 2, 2, 3, 5, 4, 3, 4, 4, 3, 4, 2, 4, 3, 5, 6, 7), price=c(120, 133, 139, 185, 148, 160, 192, 205, 244, 213, 236, 280, 275, 273, 312, 311, 304, 415, 396, 488)) #fitmodels model1 <- lm(price~beds, data=df) model2 <- lm(price~baths, data=df) #calculate log-likelihood value of each model logLik(model1) 'log Lik.' -91.04219 (df=3) logLik(model2) 'log Lik.' -111.7511 (df=3)
Перша модель має вище значення логарифмічної правдоподібності ( -91,04 ), ніж друга модель ( -111,75 ), тобто перша модель забезпечує кращу відповідність даним.
Застереження щодо використання логарифмічних значень правдоподібності
Під час обчислення логарифмічних значень правдоподібності важливо зазначити, що додавання додаткових змінних предиктора до моделі майже завжди збільшує значення логарифмічної правдоподібності, навіть якщо додаткові змінні предиктора не є статистично значущими.
Це означає, що ви повинні порівнювати значення логарифмічної правдоподібності між двома моделями регресії, лише якщо кожна модель має однакову кількість змінних предиктора.
Щоб порівняти моделі з різною кількістю змінних предикторів, ви можете виконати тест співвідношення правдоподібності , щоб порівняти відповідність двох вкладених регресійних моделей.
Додаткові ресурси
Як використовувати функцію lm() для підгонки лінійних моделей у R
Як виконати тест співвідношення ймовірності в R