Як створити roc-криву в excel (крок за кроком)
Логістична регресія – це статистичний метод, який ми використовуємо для підгонки регресійної моделі, коли змінна відповіді є двійковою. Щоб оцінити, наскільки модель логістичної регресії відповідає набору даних, ми можемо розглянути такі два показники:
- Чутливість: ймовірність того, що модель передбачає позитивний результат для спостереження, коли результат насправді позитивний. Це також називається «справжній позитивний показник».
- Специфічність: ймовірність того, що модель передбачає негативний результат для спостереження, коли результат насправді негативний. Це також називається «справжній негативний показник».
Одним із способів візуалізації цих двох вимірювань є створення кривої ROC , що означає криву «робоча характеристика приймача». Це графік, який відображає чутливість і специфічність моделі логістичної регресії.
У наступному покроковому прикладі показано, як створити й інтерпретувати криву ROC у Excel.
Крок 1: Введіть дані
Почнемо з введення необроблених даних:
Крок 2: Обчисліть сукупні дані
Тоді давайте скористаємося такою формулою, щоб обчислити кумулятивні значення для категорій «Здано» та «Не пройдено»:
- Сукупні значення успіху: =SUM($B$3:B3)
- Сукупні значення помилок: =SUM($C$3:C3)
Потім ми скопіюємо та вставимо ці формули в кожну комірку в стовпцях D і E:
Крок 3: Обчисліть частоту хибно-позитивних результатів і частоту справжніх позитивних результатів
Далі ми розрахуємо частоту помилкових позитивних результатів (FPR), частоту справжніх позитивних результатів (TPR) і площу під кривою (AUC) за такими формулами:
- FPR: =1-D3/$D$14
- TPR: =1-E3/$E$14
- ASC: =(F3-F4)*G3
Потім ми скопіюємо та вставимо ці формули в кожну комірку в стовпцях F, G і H:
Крок 4: Створіть криву ROC
Щоб створити криву ROC, ми виділимо кожне значення в діапазоні F3:G14 .
Далі ми клацнемо вкладку «Вставити» на верхній стрічці, а потім клацнемо «Вставити точку зору» (X, Y) , щоб створити такий шлях:
Крок 5: Обчисліть AUC
Чим ближче крива підходить до верхнього лівого кута графіка, тим краще модель може класифікувати дані за категоріями.
Як ми можемо бачити з графіка вище, ця модель логістичної регресії дуже добре класифікує дані за категоріями.
Щоб визначити це кількісно, ми можемо обчислити AUC (площу під кривою), яка повідомляє нам, яка частина ділянки знаходиться під кривою.
Чим ближче AUC до 1, тим краща модель. Модель з AUC, що дорівнює 0,5, не краща за модель, яка виконує випадкову класифікацію.
Щоб обчислити AUC кривої, ми можемо просто скласти всі значення в стовпці H:
AUC виявляється 0,802662 . Це значення досить високе, що вказує на те, що модель добре класифікує дані за категоріями «Пройшов» і «Не пройшов».
Додаткові ресурси
У наведених нижче посібниках пояснюється, як створити інші типові діаграми в Excel:
Як побудувати CDF в Excel
Як створити криву виживання в Excel
Як створити статистичну діаграму контролю процесу в Excel