Що таке вкладена модель? (визначення & #038; приклад)
Вкладена модель — це просто регресійна модель , яка містить підмножину предикторних змінних в іншій регресійній моделі.
Наприклад, припустімо, що ми маємо таку регресійну модель (назвемо її моделлю А), яка передбачає кількість очок, набраних баскетболістом, на основі чотирьох змінних предикторів:
Очки = β 0 + β 1 (хвилини) + β 2 (висота) + β 3 (позиція) + β 4 (кидки) + ε
Прикладом вкладеної моделі (назвемо її моделлю B) може бути наступна модель лише з двома змінними предиктора з моделі A:
Бали = β 0 + β 1 (хвилини) + β 2 (висота) + ε
Ми б сказали, що модель B є вкладеною в модель A, оскільки модель B містить підмножину змінних предиктора з моделі A.
Однак подумайте, чи була б у нас інша модель (назвемо її моделлю С), яка б містила три змінні предиктора:
Очки = β 0 + β 1 (хвилини) + β 2 (висота) + β 3 (спроби штрафних кидків)
Ми б не сказали, що модель C є вкладеною в модель A, оскільки кожна модель містить змінні предиктора, яких немає в іншій моделі.
Важливість вкладених моделей
Ми часто використовуємо вкладені моделі на практиці, коли хочемо знати, чи може модель із повним набором змінних предикторів відповідати набору даних краще, ніж модель із підмножиною цих змінних предикторів.
Наприклад, у наведеному вище сценарії ми могли б створити комплексну модель, використовуючи хвилини гри, зріст, позицію та кидки, які намагалися передбачити кількість очок, набраних баскетболістами.
Однак ми можемо підозрювати, що позиція та спроби кидків можуть не дуже добре передбачити набрані очки.
Таким чином, ми можемо створити вкладену модель , яка використовує лише хвилини гри та подачу для прогнозування набраних очок.
Потім ми можемо порівняти дві моделі, щоб визначити, чи є статистично значуща різниця.
Якщо між моделями немає суттєвої різниці, ми можемо видалити позицію та зроблені удари як змінні прогнозу, оскільки вони суттєво не покращують модель.
Як аналізувати вкладені моделі
Щоб визначити, чи суттєво відрізняється вкладена модель від «повної», ми зазвичай виконуємо перевірку співвідношення ймовірності, яка використовує наступні нульові та альтернативні гіпотези:
H 0 : повна модель і вкладена модель однаково добре відповідають даним. Отже, вам слід використовувати вкладену модель .
H A : повна модель відповідає даним значно краще, ніж вкладена модель. Тому ви повинні використовувати повний шаблон .
Перевірка співвідношення правдоподібності дає статистику хі-квадрат і відповідне значення p.
Якщо p-значення тесту нижче певного рівня значущості (наприклад, 0,05), тоді ми можемо відхилити нульову гіпотезу та зробити висновок, що повна модель забезпечує значно кращу відповідність.
У наступних посібниках пояснюється, як виконати перевірку співвідношення правдоподібності за допомогою R і Python: