Что такое маллоуз? кп? (определение и пример)
Mallows Cp — это показатель, используемый для выбора лучшей модели регрессии среди нескольких различных моделей.
Он рассчитывается следующим образом:
Cp = RSS p /S 2 – N + 2(P+1)
Золото:
- RSS p : Остаточная сумма квадратов для модели с p переменными-предикторами.
- S 2 : Остаточный средний квадрат модели (оцененный MSE).
- N: Размер выборки
- P: количество переменных-предсказателей.
Mallows Cp используется, когда у нас есть несколько потенциальных переменных-предикторов, которые мы хотели бы использовать в модели регрессии, и мы хотим определить лучшую модель, которая использует подмножество этих переменных-предикторов.
Мы можем определить «лучшую» модель регрессии, определив модель с наименьшим значением Cp, меньшим P + 1, где P — количество переменных-предикторов в модели.
В следующем примере показано, как использовать Cp Маллоуса для выбора лучшей модели регрессии из нескольких потенциальных моделей.
Пример: использование Mallows Cp для выбора лучшей модели
Предположим, профессор хочет использовать часы обучения, сданные подготовительные экзамены и текущий совокупный средний балл в качестве переменных-предсказателей в регрессионной модели, чтобы спрогнозировать оценку, которую студент получит на выпускном экзамене.
Он соответствует семи различным моделям регрессии и рассчитывает значение Mallows Cp для каждой модели:
Если значение Cp Маллоуза меньше количества коэффициентов модели (P+1), то модель называется несмещенной.
Мы видим, что существуют две беспристрастные модели:
- Модель с часами и средним баллом в качестве предикторных переменных (Cp Маллоуза = 2,9, P + 1 = 3)
- Модель с подготовительными экзаменами и средним баллом в качестве предикторных переменных (Cp Маллоуза = 2,7, P + 1 = 3)
Из этих двух моделей модель, которая использует подготовительные экзамены и средний балл в качестве переменных-предсказателей, имеет самое низкое значение Cp Маллоуза, что говорит нам о том, что это лучшая модель, которая приводит к наименьшему смещению.
Заметки о Cp des mauves
Вот некоторые вещи, которые следует учитывать при выборе Mallows Cp:
- Говорят, что модели, значение Cp Маллоуса близкое к P+1, имеют низкую систематическую ошибку.
- Если каждая потенциальная модель имеет высокое значение Cp Маллоуса, это указывает на то, что некоторые важные переменные-предикторы, вероятно, отсутствуют в каждой модели.
- Если несколько потенциальных моделей имеют низкие значения Cp Маллоу, выберите модель с наименьшим значением как лучшую для использования.
Также имейте в виду, что Cp Маллоуза — это всего лишь один из способов измерить степень соответствия регрессионной модели.
Другой часто используемой мерой является скорректированный R-квадрат, который сообщает нам долю дисперсии переменной ответа , которую можно объяснить переменными-предикторами в модели, с поправкой на количество используемых переменных-предикторов.
Чтобы решить, какая модель регрессии из списка нескольких различных моделей лучше, рекомендуется взглянуть как на Cp Маллоуза, так и на скорректированный R-квадрат.
Дополнительные ресурсы
Как рассчитать Cp Мальвы в R
Как рассчитать скорректированный R-квадрат в R