Як розрахувати фіолетовий 'cp в r


У регресійному аналізі Mallows Cp є показником, який використовується для вибору найкращої моделі регресії серед кількох потенційних моделей.

Ми можемо ідентифікувати «найкращу» регресійну модель, визначивши модель з найнижчим значенням Cp, близьким до p +1, де p — кількість змінних предиктора в моделі.

Найпростіший спосіб обчислити Cp Mallows у R — це використати функцію ols_mallows_cp() із пакета olsrr .

У наступному прикладі показано, як використовувати цю функцію для обчислення Cp Маллоуза, щоб вибрати найкращу модель регресії серед кількох потенційних моделей у R.

Приклад: розрахунок Mallows Cp у R

Припустімо, ми хочемо підібрати три різні моделі множинної лінійної регресії за допомогою змінних із набору даних mtcars .

Наведений нижче код показує, як підібрати наступні регресійні моделі:

  • Прогностичні змінні в повній моделі: 10 змінних
  • Змінні прогнозу в моделі 1: disp, hp, wt, qsec
  • Змінні предиктора в моделі 2: disp, qsec
  • Змінні предиктора в моделі 3: disp, wt

Наступний код показує, як підібрати кожну з цих регресійних моделей і використовувати функцію ols_mallows_cp() для обчислення Mallows Cp кожної моделі:

 library (olsrr)

#fit full model
full_model <- lm(mpg ~ ., data = mtcars)

#fit three smaller models
model1 <- lm(mpg ~ disp + hp + wt + qsec, data = mtcars)
model2 <- lm(mpg ~ disp + qsec, data = mtcars)
model3 <- lm(mpg ~ disp + wt, data = mtcars)

#calculate Mallows' Cp for each model
ols_mallows_cp(model1, full_model)

[1] 4.430434

ols_mallows_cp(model2, full_model)

[1] 18.64082

ols_mallows_cp(model3, full_model)

[1] 9.122225

Ось як інтерпретувати результат:

  • Модель 1: p + 1 = 5, Мальви Cp = 4,43
  • Модель 2: p + 1 = 3, Мальви Cp = 18,64
  • Модель 3: p + 1 = 30, Мальви Cp = 9,12

Ми бачимо, що модель 1 має значення Cp Маллоуза, яке найближче до p + 1, вказуючи на те, що це найкраща модель, яка призводить до найменшого зміщення серед трьох потенційних моделей.

Примітки до Cp des mauves

Ось деякі речі, про які слід пам’ятати про Mallows Cp:

  • Якщо кожна потенційна модель має високе значення Cp Маллоуза, це вказує на те, що в кожній моделі, ймовірно, відсутні деякі важливі предикторні змінні.
  • Якщо кілька потенційних моделей мають низькі значення Cp Маллоу, виберіть модель із найнижчим значенням як найкращу для використання.

Майте на увазі, що Cp Маллоуза — це лише один із способів визначити «найкращу» модель регресії серед кількох потенційних моделей.

Іншим часто використовуваним показником є скоригований R-квадрат, який повідомляє нам про частку дисперсії у змінній відповіді , яку можна пояснити змінними предикторів у моделі, скоригованих на кількість використаних змінних предикторів.

Щоб вирішити, яка регресійна модель найкраща зі списку кількох різних моделей, рекомендується дивитися як на Cp Маллоуза, так і на скоригований R-квадрат.

Додаткові ресурси

Як обчислити скоригований R-квадрат у R
Як розрахувати AIC в R

Додати коментар

Ваша e-mail адреса не оприлюднюватиметься. Обов’язкові поля позначені *