Как рассчитать фиолетовый 'cp в r


В регрессионном анализе Mallows Cp — это метрика, используемая для выбора лучшей модели регрессии среди нескольких потенциальных моделей.

Мы можем определить «лучшую» модель регрессии, определив модель с наименьшим значением Cp, близким к p +1, где p — количество переменных-предикторов в модели.

Самый простой способ рассчитать Cp Mallows в R — использовать функцию ols_mallows_cp() из пакета olsrr .

В следующем примере показано, как использовать эту функцию для расчета Cp Маллоуса, чтобы выбрать лучшую модель регрессии среди нескольких потенциальных моделей в R.

Пример: расчет Mallows Cp в R

Допустим, мы хотим подогнать три разные модели множественной линейной регрессии, используя переменные из набора данных mtcars .

Следующий код показывает, как соответствовать следующим моделям регрессии:

  • Переменные-предикторы в полной модели: 10 переменных
  • Переменные-предикторы в модели 1: disp, hp, wt, qsec
  • Переменные-предикторы в модели 2: disp, qsec
  • Переменные-предикторы в модели 3: disp, wt

Следующий код показывает, как подогнать каждую из этих моделей регрессии и использовать функцию ols_mallows_cp() для расчета Cp Маллоуса каждой модели:

 library (olsrr)

#fit full model
full_model <- lm(mpg ~ ., data = mtcars)

#fit three smaller models
model1 <- lm(mpg ~ disp + hp + wt + qsec, data = mtcars)
model2 <- lm(mpg ~ disp + qsec, data = mtcars)
model3 <- lm(mpg ~ disp + wt, data = mtcars)

#calculate Mallows' Cp for each model
ols_mallows_cp(model1, full_model)

[1] 4.430434

ols_mallows_cp(model2, full_model)

[1] 18.64082

ols_mallows_cp(model3, full_model)

[1] 9.122225

Вот как интерпретировать результат:

  • Модель 1: p + 1 = 5, Маллоу Cp = 4,43.
  • Модель 2: p + 1 = 3, Маллоу Cp = 18,64.
  • Модель 3: p + 1 = 30, Маллоу Cp = 9,12.

Мы видим, что модель 1 имеет значение Cp Маллоуса, наиболее близкое к p + 1, что указывает на то, что это лучшая модель, которая приводит к наименьшему смещению среди трех потенциальных моделей.

Заметки о Cp des mauves

Вот некоторые вещи, которые следует учитывать при выборе Mallows Cp:

  • Если каждая потенциальная модель имеет высокое значение Cp Маллоуса, это указывает на то, что некоторые важные переменные-предикторы, вероятно, отсутствуют в каждой модели.
  • Если несколько потенциальных моделей имеют низкие значения Cp Маллоу, выберите модель с наименьшим значением как лучшую для использования.

Имейте в виду, что Cp Маллоуза — это всего лишь один из способов определить «лучшую» модель регрессии среди нескольких потенциальных моделей.

Другой часто используемой мерой является скорректированный R-квадрат, который сообщает нам долю дисперсии переменной ответа , которую можно объяснить переменными-предикторами в модели, с поправкой на количество используемых переменных-предикторов.

Чтобы решить, какая модель регрессии является лучшей среди списка нескольких различных моделей, рекомендуется посмотреть как на Cp Маллоуза, так и на скорректированный R-квадрат.

Дополнительные ресурсы

Как рассчитать скорректированный R-квадрат в R
Как рассчитать AIC в R

Добавить комментарий

Ваш адрес email не будет опубликован. Обязательные поля помечены *