Що вважається хорошим показником auc?
Логістична регресія – це метод, який ми використовуємо для підгонки моделі регресії, коли змінна відповіді є двійковою.
Щоб оцінити, наскільки модель логістичної регресії відповідає набору даних, ми можемо розглянути такі два показники:
- Чутливість: ймовірність того, що модель передбачає позитивний результат для спостереження, коли результат насправді позитивний. Це також називається «справжній позитивний показник».
- Специфічність: ймовірність того, що модель передбачає негативний результат для спостереження, коли результат насправді негативний. Це також називається «справжній негативний показник».
Одним із способів візуалізації цих двох вимірювань є створення кривої ROC , що означає криву «робоча характеристика приймача».
Це графік, який відображає чутливість по осі y та (1 – специфічність) по осі x.
Одним із способів кількісної оцінки ефективності моделі логістичної регресії для класифікації даних є обчислення AUC , що означає «площа під кривою».
Значення AUC коливається від 0 до 1. Модель, яка має AUC 1, здатна ідеально класифікувати спостереження за класами, тоді як модель, яка має AUC 0,5, працює не краще, ніж модель, яка робить випадкові припущення.
Що таке хороша оцінка AUC?
Питання, яке студенти часто задають про AUC:
Що таке хороша оцінка AUC?
Відповідь:
Не існує конкретного порогу для того, що вважається хорошим показником AUC.
Очевидно, що вищий показник AUC, то більша здатність моделі класифікувати спостереження за класами.
І ми знаємо, що модель з показником AUC 0,5 не краща за модель, яка робить випадкові припущення.
Однак не існує магічного числа, яке б визначало, чи є показник AUC хорошим чи поганим.
Якщо нам потрібно класифікувати певні оцінки як хороші чи погані, ми можемо послатися на наступне емпіричне правило Хосмера та Лемешоу в Applied Logistic Regression (стор. 177):
- 0,5 = відсутність дискримінації
- 0,5-0,7 = Погана дискримінація
- 0,7-0,8 = прийнятна дискримінація
- 0,8-0,9 = Відмінна дискримінація
- >0,9 = виняткова дискримінація
Відповідно до цих стандартів, модель з показником AUC нижче 0,7 вважатиметься поганою, а будь-яка модель з вищим показником вважатиметься прийнятною або кращою.
«Добрий» показник AUC залежить від галузі
Важливо мати на увазі, що те, що вважається «хорошим» показником AUC, залежить від галузі.
Наприклад, у галузі медицини дослідники часто шукають значення AUC вище 0,95, оскільки ціна помилки дуже висока.
Наприклад, якщо у нас є логістична регресійна модель, яка передбачає, чи захворіє у пацієнта рак, вартість помилки (неправдиве повідомлення пацієнту, що він не хворий на рак, а потім те, що він у нього є) настільки висока, що ми хочемо модель, яка майже завжди правильна.
І навпаки, в інших галузях, як-от маркетинг, нижчий показник AUC може бути прийнятним для моделі.
Наприклад, якщо у нас є модель, яка передбачає, чи буде клієнт повторним клієнтом, ціна помилки не змінює життя, тому модель із AUC лише 0,6 може бути корисною.
Порівняйте показники AUC з поточною моделлю
У реальних умовах ми часто порівнюємо показники AUC нових моделей логістичної регресії з показником AUC поточної моделі.
Наприклад, припустімо, що компанія використовує модель логістичної регресії, щоб передбачити, чи будуть клієнти постійними клієнтами.
Якщо поточна модель має оцінку AUC 0,6, а ви розробляєте нову модель, яка має AUC 0,65, тоді розроблена вами нова модель буде кращою, навіть якщо вона пропонує лише незначне покращення та буде визнана Хосмером і Лемешоу «поганою». стандарти.
Додаткові ресурси
У наступних посібниках надається додаткова інформація про те, як створювати та інтерпретувати криві ROC і показники AUC:
Як інтерпретувати криву ROC (з прикладами)
Як створити ROC-криву в Python
Як створити криву ROC у R
Як розрахувати AUC в R