Как рассчитать фиолетовый 'cp в r
В регрессионном анализе Mallows Cp — это метрика, используемая для выбора лучшей модели регрессии среди нескольких потенциальных моделей.
Мы можем определить «лучшую» модель регрессии, определив модель с наименьшим значением Cp, близким к p +1, где p — количество переменных-предикторов в модели.
Самый простой способ рассчитать Cp Mallows в R — использовать функцию ols_mallows_cp() из пакета olsrr .
В следующем примере показано, как использовать эту функцию для расчета Cp Маллоуса, чтобы выбрать лучшую модель регрессии среди нескольких потенциальных моделей в R.
Пример: расчет Mallows Cp в R
Допустим, мы хотим подогнать три разные модели множественной линейной регрессии, используя переменные из набора данных mtcars .
Следующий код показывает, как соответствовать следующим моделям регрессии:
- Переменные-предикторы в полной модели: 10 переменных
- Переменные-предикторы в модели 1: disp, hp, wt, qsec
- Переменные-предикторы в модели 2: disp, qsec
- Переменные-предикторы в модели 3: disp, wt
Следующий код показывает, как подогнать каждую из этих моделей регрессии и использовать функцию ols_mallows_cp() для расчета Cp Маллоуса каждой модели:
library (olsrr) #fit full model full_model <- lm(mpg ~ ., data = mtcars) #fit three smaller models model1 <- lm(mpg ~ disp + hp + wt + qsec, data = mtcars) model2 <- lm(mpg ~ disp + qsec, data = mtcars) model3 <- lm(mpg ~ disp + wt, data = mtcars) #calculate Mallows' Cp for each model ols_mallows_cp(model1, full_model) [1] 4.430434 ols_mallows_cp(model2, full_model) [1] 18.64082 ols_mallows_cp(model3, full_model) [1] 9.122225
Вот как интерпретировать результат:
- Модель 1: p + 1 = 5, Маллоу Cp = 4,43.
- Модель 2: p + 1 = 3, Маллоу Cp = 18,64.
- Модель 3: p + 1 = 30, Маллоу Cp = 9,12.
Мы видим, что модель 1 имеет значение Cp Маллоуса, наиболее близкое к p + 1, что указывает на то, что это лучшая модель, которая приводит к наименьшему смещению среди трех потенциальных моделей.
Заметки о Cp des mauves
Вот некоторые вещи, которые следует учитывать при выборе Mallows Cp:
- Если каждая потенциальная модель имеет высокое значение Cp Маллоуса, это указывает на то, что некоторые важные переменные-предикторы, вероятно, отсутствуют в каждой модели.
- Если несколько потенциальных моделей имеют низкие значения Cp Маллоу, выберите модель с наименьшим значением как лучшую для использования.
Имейте в виду, что Cp Маллоуза — это всего лишь один из способов определить «лучшую» модель регрессии среди нескольких потенциальных моделей.
Другой часто используемой мерой является скорректированный R-квадрат, который сообщает нам долю дисперсии переменной ответа , которую можно объяснить переменными-предикторами в модели, с поправкой на количество используемых переменных-предикторов.
Чтобы решить, какая модель регрессии является лучшей среди списка нескольких различных моделей, рекомендуется посмотреть как на Cp Маллоуза, так и на скорректированный R-квадрат.
Дополнительные ресурсы
Как рассчитать скорректированный R-квадрат в R
Как рассчитать AIC в R