Что такое маллоуз? кп? (определение и пример)


Mallows Cp — это показатель, используемый для выбора лучшей модели регрессии среди нескольких различных моделей.

Он рассчитывается следующим образом:

Cp = RSS p /S 2 – N + 2(P+1)

Золото:

  • RSS p : Остаточная сумма квадратов для модели с p переменными-предикторами.
  • S 2 : Остаточный средний квадрат модели (оцененный MSE).
  • N: Размер выборки
  • P: количество переменных-предсказателей.

Mallows Cp используется, когда у нас есть несколько потенциальных переменных-предикторов, которые мы хотели бы использовать в модели регрессии, и мы хотим определить лучшую модель, которая использует подмножество этих переменных-предикторов.

Мы можем определить «лучшую» модель регрессии, определив модель с наименьшим значением Cp, меньшим P + 1, где P — количество переменных-предикторов в модели.

В следующем примере показано, как использовать Cp Маллоуса для выбора лучшей модели регрессии из нескольких потенциальных моделей.

Пример: использование Mallows Cp для выбора лучшей модели

Предположим, профессор хочет использовать часы обучения, сданные подготовительные экзамены и текущий совокупный средний балл в качестве переменных-предсказателей в регрессионной модели, чтобы спрогнозировать оценку, которую студент получит на выпускном экзамене.

Он соответствует семи различным моделям регрессии и рассчитывает значение Mallows Cp для каждой модели:

Использование Mallows Cp для выбора лучшей модели регрессии

Если значение Cp Маллоуза меньше количества коэффициентов модели (P+1), то модель называется несмещенной.

Мы видим, что существуют две беспристрастные модели:

  • Модель с часами и средним баллом в качестве предикторных переменных (Cp Маллоуза = 2,9, P + 1 = 3)
  • Модель с подготовительными экзаменами и средним баллом в качестве предикторных переменных (Cp Маллоуза = 2,7, P + 1 = 3)

Из этих двух моделей модель, которая использует подготовительные экзамены и средний балл в качестве переменных-предсказателей, имеет самое низкое значение Cp Маллоуза, что говорит нам о том, что это лучшая модель, которая приводит к наименьшему смещению.

Заметки о Cp des mauves

Вот некоторые вещи, которые следует учитывать при выборе Mallows Cp:

  • Говорят, что модели, значение Cp Маллоуса близкое к P+1, имеют низкую систематическую ошибку.
  • Если каждая потенциальная модель имеет высокое значение Cp Маллоуса, это указывает на то, что некоторые важные переменные-предикторы, вероятно, отсутствуют в каждой модели.
  • Если несколько потенциальных моделей имеют низкие значения Cp Маллоу, выберите модель с наименьшим значением как лучшую для использования.

Также имейте в виду, что Cp Маллоуза — это всего лишь один из способов измерить степень соответствия регрессионной модели.

Другой часто используемой мерой является скорректированный R-квадрат, который сообщает нам долю дисперсии переменной ответа , которую можно объяснить переменными-предикторами в модели, с поправкой на количество используемых переменных-предикторов.

Чтобы решить, какая модель регрессии из списка нескольких различных моделей лучше, рекомендуется взглянуть как на Cp Маллоуза, так и на скорректированный R-квадрат.

Дополнительные ресурсы

Как рассчитать Cp Мальвы в R
Как рассчитать скорректированный R-квадрат в R

Добавить комментарий

Ваш адрес email не будет опубликован. Обязательные поля помечены *