Як інтерпретувати криву roc (з прикладами)
Логістична регресія – це статистичний метод, який ми використовуємо для підгонки регресійної моделі, коли змінна відповіді є двійковою. Щоб оцінити, наскільки модель логістичної регресії відповідає набору даних, ми можемо розглянути такі два показники:
- Чутливість: ймовірність того, що модель передбачає позитивний результат для спостереження, коли результат насправді позитивний.
- Специфічність: ймовірність того, що модель передбачає негативний результат для спостереження, коли результат насправді негативний.
Простим способом візуалізації цих двох показників є створення кривої ROC , яка є графіком, що відображає чутливість і специфічність моделі логістичної регресії.
Цей підручник пояснює, як створити та інтерпретувати криву ROC.
Як створити криву ROC
Після того, як ми підібрали модель логістичної регресії, ми можемо використовувати її для класифікації спостережень за однією з двох категорій.
Наприклад, ми можемо класифікувати спостереження як «позитивні» або «негативні».
Справжній позитивний коефіцієнт представляє частку спостережень, які повинні бути позитивними, коли вони насправді є.
І навпаки, коефіцієнт помилкових позитивних результатів представляє частку спостережень, які повинні бути позитивними, але насправді є негативними.
Коли ми створюємо криву ROC, ми будуємо пари істинно позитивних показників проти хибних позитивних показників для кожного можливого порогу рішення моделі логістичної регресії.
Як інтерпретувати криву ROC
Чим ближче крива ROC підходить до верхнього лівого кута графіка, тим краще модель може класифікувати дані за категоріями.
Щоб визначити це кількісно, ми можемо обчислити AUC (площу під кривою), яка повідомляє нам, яка частина ділянки знаходиться під кривою.
Чим ближче AUC до 1, тим краща модель.
Модель з AUC, що дорівнює 0,5, буде ідеально діагональною лінією та представлятиме модель, яка не є кращою за модель, яка виконує випадкову класифікацію.
Особливо корисно розраховувати AUC для моделей множинної логістичної регресії, оскільки це дає нам змогу побачити, яка модель найкраще робить прогнози.
Наприклад, припустімо, що ми підбираємо три різні моделі логістичної регресії та будуємо такі криві ROC для кожної моделі:
Припустимо, ми обчислюємо AUC для кожної моделі таким чином:
- Модель A: AUC = 0,923
- Модель B: AUC = 0,794
- Модель C: AUC = 0,588
Модель A має найвищу AUC, що вказує на те, що вона має найбільшу площу під кривою та є найкращою моделлю для правильної класифікації спостережень за категоріями.
Додаткові ресурси
У наступних посібниках пояснюється, як створити криві ROC за допомогою різного статистичного програмного забезпечення: