Что считается хорошим показателем auc?


Логистическая регрессия — это метод, который мы используем для подбора модели регрессии, когда переменная ответа является двоичной.

Чтобы оценить, насколько хорошо модель логистической регрессии соответствует набору данных, мы можем взглянуть на следующие два показателя:

  • Чувствительность: вероятность того, что модель предсказывает положительный результат наблюдения, когда результат на самом деле положительный. Это также называется «истинно положительным показателем».
  • Специфичность: вероятность того, что модель предсказывает отрицательный результат наблюдения, хотя на самом деле результат отрицательный. Это также называют «истинно отрицательной ставкой».

Один из способов визуализировать эти два измерения — создать кривую ROC , которая означает кривую «рабочей характеристики приемника».

Это график, отображающий чувствительность по оси Y и (1 – специфичность) по оси X.

Одним из способов количественной оценки эффективности модели логистической регрессии при классификации данных является расчет AUC , что означает «площадь под кривой».

Значение AUC варьируется от 0 до 1. Модель, имеющая AUC 1, способна идеально классифицировать наблюдения по классам, в то время как модель с AUC 0,5 работает не лучше, чем модель, которая делает случайные предположения.

Что такое хороший показатель AUC?

Студенты часто задают вопрос об AUC:

Что такое хороший показатель AUC?

Ответ:

Не существует определенного порога того, что считается хорошим показателем AUC.

Очевидно, что чем выше показатель AUC, тем лучше модель классифицирует наблюдения по классам.

И мы знаем, что модель с показателем AUC 0,5 не лучше модели, которая делает случайные предположения.

Однако не существует волшебного числа, позволяющего определить, является ли показатель AUC хорошим или плохим.

Если нам нужно классифицировать определенные показатели как хорошие или плохие, мы можем обратиться к следующему эмпирическому правилу Хосмера и Лемешоу в книге «Прикладная логистическая регрессия» (стр. 177):

  • 0,5 = Нет дискриминации
  • 0,5-0,7 = Плохая дискриминация
  • 0,7-0,8 = Приемлемая дискриминация
  • 0,8-0,9 = Отличная дискриминация
  • >0,9 = Исключительная дискриминация

По этим стандартам модель с показателем AUC ниже 0,7 будет считаться плохой, а любая модель с более высоким показателем будет считаться приемлемой или лучшей.

«Хороший» показатель AUC зависит от отрасли.

Важно помнить, что показатель AUC, который считается «хорошим», зависит от отрасли.

Например, в области медицины исследователи часто ищут значения AUC выше 0,95, поскольку цена ошибки очень высока.

Например, если у нас есть модель логистической регрессии, которая предсказывает, разовьется ли у пациента рак, цена ошибки (ложного сообщения пациенту, что у него нет рака, тогда как он есть) настолько высока, что мы хотим модель, которая верна почти всегда.

И наоборот, в других отраслях, таких как маркетинг, для модели может быть приемлемым более низкий показатель AUC.

Например, если у нас есть модель, которая предсказывает, станет ли клиент постоянным покупателем, цена ошибки не меняет жизнь, поэтому модель с AUC всего 0,6 все равно может быть полезной.

Сравните показатели AUC с текущей моделью

В реальных условиях мы часто сравниваем показатели AUC новых моделей логистической регрессии с показателями AUC текущей используемой модели.

Например, предположим, что компания использует модель логистической регрессии, чтобы предсказать, будут ли клиенты постоянными клиентами.

Если текущая модель имеет показатель AUC 0,6, а вы разрабатываете новую модель с показателем AUC 0,65, то новая модель, которую вы разработали, будет предпочтительнее, даже если она предлагает лишь небольшое улучшение и Хосмер и Лемешоу сочтут ее «плохой». стандарты.

Дополнительные ресурсы

В следующих руководствах представлена дополнительная информация о том, как создавать и интерпретировать кривые ROC и показатели AUC:

Как интерпретировать кривую ROC (с примерами)
Как создать кривую ROC в Python
Как создать кривую ROC в R
Как рассчитать AUC в R

Добавить комментарий

Ваш адрес email не будет опубликован. Обязательные поля помечены *