Что такое вложенная модель? (определение & #038; пример)
Вложенная модель — это просто модель регрессии , которая содержит подмножество переменных-предикторов в другой модели регрессии.
Например, предположим, что у нас есть следующая модель регрессии (назовем ее Моделью A), которая прогнозирует количество очков, набранных баскетболистом, на основе четырех переменных-предсказателей:
Очки = β 0 + β 1 (минуты) + β 2 (высота) + β 3 (позиция) + β 4 (выстрелы) + ε
Примером вложенной модели (назовем ее Модель B) может быть следующая модель только с двумя переменными-предикторами из Модели A:
Очки = β 0 + β 1 (минуты) + β 2 (высота) + ε
Мы бы сказали, что модель B вложена в модель A , потому что модель B содержит подмножество переменных-предсказателей из модели A.
Однако представьте, есть ли у нас другая модель (назовем ее Модель C), содержащая три переменные-предикторы:
Очки = β 0 + β 1 (минуты) + β 2 (рост) + β 3 (попытки штрафных бросков)
Мы бы не сказали, что модель C вложена в модель A, поскольку каждая модель содержит переменные-предикторы, которых нет в другой модели.
Важность вложенных моделей
На практике мы часто используем вложенные модели, когда хотим знать, может ли модель с полным набором переменных-предикторов соответствовать набору данных лучше, чем модель с подмножеством этих переменных-предикторов.
Например, в приведенном выше сценарии мы могли бы использовать комплексную модель , используя сыгранные минуты, рост, позицию и удары, чтобы попытаться предсказать количество очков, набранных баскетболистами.
Однако мы можем подозревать, что позиция и попытки бросков могут не очень точно предсказать набранные очки.
Таким образом, мы могли бы использовать вложенную модель , которая использует только сыгранные минуты и подачу для прогнозирования набранных очков.
Затем мы можем сравнить две модели, чтобы определить, существует ли статистически значимая разница.
Если между моделями нет существенной разницы, мы можем исключить позицию и предпринятые попытки выстрелов в качестве переменных-предсказателей, поскольку они существенно не улучшают модель.
Как анализировать вложенные модели
Чтобы определить, значительно ли вложенная модель отличается от «полной» модели, мы обычно выполняем тест отношения правдоподобия, в котором используются следующие нулевые и альтернативные гипотезы:
H 0 : Полная модель и вложенная модель одинаково хорошо соответствуют данным. Итак, вам следует использовать вложенную модель .
H A : Полная модель значительно лучше соответствует данным, чем вложенная модель. Поэтому вам придется использовать полный шаблон .
Тест отношения правдоподобия дает статистику критерия Хи-квадрат и соответствующее значение p.
Если значение p теста ниже определенного уровня значимости (например, 0,05), то мы можем отвергнуть нулевую гипотезу и сделать вывод, что полная модель обеспечивает значительно лучшее соответствие.
В следующих руководствах объясняется, как выполнить тест отношения правдоподобия с использованием R и Python: