Оцінка f1 проти точності: що слід використовувати?
Використовуючи моделі класифікації в машинному навчанні, два показники, які ми часто використовуємо для оцінки якості моделі, — це показник F1 і точність .
Для обох показників, чим вище значення, тим більша здатність моделі класифікувати спостереження за класами.
Однак кожна метрика обчислюється за іншою формулою, і її використання має свої переваги та недоліки.
У наступному прикладі показано, як обчислити кожен показник на практиці.
Приклад: розрахунок оцінки F1 і точності
Припустімо, що ми використовуємо логістичну регресійну модель, щоб передбачити, чи будуть 400 різних студентських баскетболістів задрафтовані до НБА.
Наступна матриця плутанини узагальнює прогнози, зроблені моделлю:
Ось як обчислити різні показники для матриці плутанини:
Точність: правильні позитивні прогнози відносно загальної кількості позитивних прогнозів
- Точність = Справжній позитивний / (Справжній позитивний + Хибний позитивний)
- Точність = 120 / (120 + 70)
- Точність = 0,63
Нагадування: виправляйте позитивні прогнози проти загальних фактичних позитивних результатів
- Відкликання = Істинний позитивний / (Істинний позитивний + Хибно-негативний)
- Відкликання = 120 / (120 + 40)
- Відкликання = 0,75
Точність: відсоток усіх спостережень, правильно класифікованих
- Точність = (Справді позитивний + Справді негативний) / (Загальний розмір вибірки)
- Точність = (120 + 170) / (400)
- Точність = 0,725
Оцінка F1: гармонійне середнє значення точності та запам’ятовування
- Оцінка F1 = 2 * (точність * пригадування) / (точність + пригадування)
- Оцінка F1 = 2 * (0,63 * 0,75) / (0,63 + 0,75)
- Оцінка F1 = 0,685
Коли використовувати оцінку F1 чи точність
Є плюси та мінуси використання оцінки F1 і точності.
Точність :
Плюси : Легко інтерпретувати. Якщо ми кажемо, що модель точна на 90%, ми знаємо, що вона правильно класифікувала 90% спостережень.
Недолік : не враховується спосіб розподілу даних. Наприклад, припустимо, що 90% усіх гравців не задрафтовані до НБА. Якби у нас була модель, яка просто передбачала, що кожен гравець залишиться без драфту, модель правильно передбачила б результат для 90% гравців. Це значення здається високим, але насправді модель не може правильно передбачити, які гравці будуть задрафтовані.
Результати Ф1 :
Pro : подумайте про те, як дані розподіляються. Наприклад, якщо дані дуже незбалансовані (наприклад, 90% усіх гравців не зараховані, а 10% є), тоді оцінка F1 забезпечить кращу оцінку ефективності моделі.
Недолік : Важче інтерпретувати. Оцінка F1 є сумішшю точності та запам’ятовування моделі, що робить її дещо складнішою для інтерпретації.
Загалом:
Ми часто використовуємо точність , коли класи збалансовані і немає істотного недоліку в прогнозуванні помилкових негативів.
Ми часто використовуємо оцінку F1 , коли класи незбалансовані, і є серйозний недолік у прогнозуванні помилкових негативів.
Наприклад, якщо ми використовуємо модель логістичної регресії, щоб передбачити, чи є у людини рак чи ні, помилкові негативні результати є дійсно поганими (наприклад, передбачити, що людина не хвора на рак, тоді як у неї насправді є а), тому оцінка F1 покарає моделі, які мають занадто багато помилкових негативів. більше ніж точність.
Додаткові ресурси
Регресія vs. класифікація: в чому різниця?
Вступ до логістичної регресії
Як виконати логістичну регресію в R
Як виконати логістичну регресію в Python