Частота помилок класифікації в машинному навчанні: визначення та приклад
У машинному навчанні коефіцієнт неправильної класифікації – це показник, який повідомляє нам про відсоток спостережень, які були неправильно передбачені моделлю класифікації .
Він розраховується таким чином:
Показник неправильної класифікації = # неправильних прогнозів / # загальних прогнозів
Значення коефіцієнта помилкової класифікації може змінюватися від 0 до 1, де:
- 0 означає модель, яка не мала неправильних прогнозів.
- 1 представляє модель, прогнози якої були абсолютно невірними.
Чим нижче значення коефіцієнта помилкової класифікації, тим краще модель класифікації здатна передбачити результати змінної відповіді .
У наступному прикладі показано, як на практиці розрахувати коефіцієнт помилок класифікації для моделі логістичної регресії .
Приклад: обчислення частоти помилок класифікації для моделі логістичної регресії
Припустімо, що ми використовуємо логістичну регресійну модель, щоб передбачити, чи будуть 400 різних студентських баскетболістів задрафтовані до НБА.
Наступна матриця плутанини узагальнює прогнози, зроблені моделлю:
Ось як розрахувати коефіцієнт помилок класифікації для моделі:
- Показник неправильної класифікації = # неправильних прогнозів / # загальних прогнозів
- Частота помилок класифікації = (хибно-позитивні + хибно-негативні) / (загальна кількість прогнозів)
- Рівень неправильної класифікації = (70 + 40) / (400)
- Рівень неправильної класифікації = 0,275
Коефіцієнт похибок класифікації для цієї моделі становить 0,275 або 27,5% .
Це означає, що модель невірно передбачила результат для 27,5% гравців.
Протилежністю частоті помилок класифікації буде точність, яка обчислюється наступним чином:
- Точність = 1 – Частота помилок класифікації
- Точність = 1 – 0,275
- Точність = 0,725
Це означає, що модель правильно передбачила результат для 72,5% гравців.
Переваги та недоліки коефіцієнта неправильної класифікації
Рівень неправильної класифікації дає такі переваги :
- Це легко інтерпретувати . Рівень помилок класифікації 10% означає, що модель зробила неправильний прогноз для 10% від загальної кількості спостережень.
- Це легко порахувати . Рівень неправильної класифікації обчислюється як загальна кількість неправильних прогнозів, поділена на загальну кількість прогнозів.
Однак частота помилок класифікації має такі недоліки :
- При цьому не враховується, як розподіляються дані . Наприклад, припустимо, що 90% усіх гравців не задрафтовані до НБА. Якби у нас була модель, яка просто передбачала, що кожен гравець залишиться без драфту, модель мала б рівень помилок класифікації лише 10%. Це здається низьким, але модель насправді не може правильно передбачити гравця, який буде задрафтований.
На практиці ми часто обчислюємо коефіцієнт помилок класифікації моделі за допомогою інших показників, таких як:
- Чутливість : «справжній позитивний рівень» – відсоток позитивних результатів, які модель здатна виявити.
- Специфічність : «справжній негативний показник» – відсоток негативних результатів, які модель може виявити.
- Оцінка F1 : показник , який говорить нам, наскільки точна модель відносно того, як розподілені дані.
Обчисливши значення кожного з цих показників, ми можемо повністю зрозуміти, наскільки добре модель здатна робити прогнози.
Додаткові ресурси
У наступних посібниках надається додаткова інформація про поширені концепції машинного навчання:
Вступ до логістичної регресії
Що таке збалансована точність?
Оцінка Формули 1 проти точності: що слід використовувати?