Що таке мальви? cp? (визначення та приклад)


Mallows Cp — це показник, який використовується для вибору найкращої моделі регресії серед кількох різних моделей.

Він розраховується таким чином:

Cp = RSS p /S 2 – N + 2(P+1)

золото:

  • RSS p : Залишкова сума квадратів для моделі з p предикторними змінними
  • S 2 : Залишковий середній квадрат моделі (оцінено MSE)
  • N: Розмір вибірки
  • P: Кількість змінних предиктора

Mallows Cp використовується, коли ми маємо кілька потенційних змінних предикторів, які ми хотіли б використати в регресійній моделі, і ми хочемо визначити найкращу модель, яка використовує підмножину цих змінних предикторів.

Ми можемо ідентифікувати «найкращу» регресійну модель, визначивши модель з найнижчим значенням Cp, меншим за P+1, де P — кількість змінних предиктора в моделі.

У наступному прикладі показано, як використовувати Cp Маллоуза для вибору найкращої моделі регресії з кількох потенційних моделей.

Приклад: використання Mallows Cp для вибору найкращої моделі

Припустімо, що професор хоче використати вивчені години, складені підготовчі іспити та поточний накопичений середній бал як змінні прогнозу в регресійній моделі, щоб передбачити оцінку, яку студент отримає на випускному іспиті.

Він відповідає семи різним моделям регресії та обчислює значення Cp Mallows для кожної моделі:

Використання Mallows Cp для вибору найкращої моделі регресії

Якщо значення Cp Маллоуза менше, ніж кількість коефіцієнтів моделі (P+1), то модель вважається незміщеною.

Ми бачимо, що є дві неупереджені моделі:

  • Модель з годинами та середнім балом як прогностичні змінні (Cp Маллоуза = 2,9, P+1 = 3)
  • Модель з підготовчими іспитами та середнім балом як прогностичні змінні (Cp Маллоуза = 2,7, P+1 = 3)

З цих двох моделей модель, яка використовує підготовчі іспити та середній бал як змінні прогнозу, має найнижче значення для Cp Маллоуза, що говорить нам, що це краща модель, яка призводить до найменшого упередження.

Нотатки про Cp des mauves

Ось деякі речі, про які слід пам’ятати про Mallows Cp:

  • Кажуть, що моделі, які мають значення Cp Маллоуза, близьке до P+1, мають низький зміщення.
  • Якщо кожна потенційна модель має високе значення Cp Маллоуза, це вказує на те, що в кожній моделі, ймовірно, відсутні деякі важливі предикторні змінні.
  • Якщо кілька потенційних моделей мають низькі значення Cp Маллоу, виберіть модель із найнижчим значенням як найкращу для використання.

Також майте на увазі, що Cp Маллоуза — це лише один із способів вимірювання відповідності регресійної моделі.

Іншим часто використовуваним показником є скоригований R-квадрат, який повідомляє нам про частку дисперсії у змінній відповіді , яку можна пояснити змінними предикторів у моделі, скоригованих на кількість використаних змінних предикторів.

Щоб вирішити, яка регресійна модель є найкращою зі списку кількох різних моделей, доцільно переглянути як Cp Маллоуза, так і скоригований R-квадрат.

Додаткові ресурси

Як розрахувати Mallows Cp у R
Як обчислити скоригований R-квадрат у R

Додати коментар

Ваша e-mail адреса не оприлюднюватиметься. Обов’язкові поля позначені *