Оцінка f1 проти точності: що слід використовувати?


Використовуючи моделі класифікації в машинному навчанні, два показники, які ми часто використовуємо для оцінки якості моделі, — це показник F1 і точність .

Для обох показників, чим вище значення, тим більша здатність моделі класифікувати спостереження за класами.

Однак кожна метрика обчислюється за іншою формулою, і її використання має свої переваги та недоліки.

У наступному прикладі показано, як обчислити кожен показник на практиці.

Приклад: розрахунок оцінки F1 і точності

Припустімо, що ми використовуємо логістичну регресійну модель, щоб передбачити, чи будуть 400 різних студентських баскетболістів задрафтовані до НБА.

Наступна матриця плутанини узагальнює прогнози, зроблені моделлю:

Ось як обчислити різні показники для матриці плутанини:

Точність: правильні позитивні прогнози відносно загальної кількості позитивних прогнозів

  • Точність = Справжній позитивний / (Справжній позитивний + Хибний позитивний)
  • Точність = 120 / (120 + 70)
  • Точність = 0,63

Нагадування: виправляйте позитивні прогнози проти загальних фактичних позитивних результатів

  • Відкликання = Істинний позитивний / (Істинний позитивний + Хибно-негативний)
  • Відкликання = 120 / (120 + 40)
  • Відкликання = 0,75

Точність: відсоток усіх спостережень, правильно класифікованих

  • Точність = (Справді позитивний + Справді негативний) / (Загальний розмір вибірки)
  • Точність = (120 + 170) / (400)
  • Точність = 0,725

Оцінка F1: гармонійне середнє значення точності та запам’ятовування

  • Оцінка F1 = 2 * (точність * пригадування) / (точність + пригадування)
  • Оцінка F1 = 2 * (0,63 * 0,75) / (0,63 + 0,75)
  • Оцінка F1 = 0,685

Коли використовувати оцінку F1 чи точність

Є плюси та мінуси використання оцінки F1 і точності.

Точність :

Плюси : Легко інтерпретувати. Якщо ми кажемо, що модель точна на 90%, ми знаємо, що вона правильно класифікувала 90% спостережень.

Недолік : не враховується спосіб розподілу даних. Наприклад, припустимо, що 90% усіх гравців не задрафтовані до НБА. Якби у нас була модель, яка просто передбачала, що кожен гравець залишиться без драфту, модель правильно передбачила б результат для 90% гравців. Це значення здається високим, але насправді модель не може правильно передбачити, які гравці будуть задрафтовані.

Результати Ф1 :

Pro : подумайте про те, як дані розподіляються. Наприклад, якщо дані дуже незбалансовані (наприклад, 90% усіх гравців не зараховані, а 10% є), тоді оцінка F1 забезпечить кращу оцінку ефективності моделі.

Недолік : Важче інтерпретувати. Оцінка F1 є сумішшю точності та запам’ятовування моделі, що робить її дещо складнішою для інтерпретації.

Загалом:

Ми часто використовуємо точність , коли класи збалансовані і немає істотного недоліку в прогнозуванні помилкових негативів.

Ми часто використовуємо оцінку F1 , коли класи незбалансовані, і є серйозний недолік у прогнозуванні помилкових негативів.

Наприклад, якщо ми використовуємо модель логістичної регресії, щоб передбачити, чи є у людини рак чи ні, помилкові негативні результати є дійсно поганими (наприклад, передбачити, що людина не хвора на рак, тоді як у неї насправді є а), тому оцінка F1 покарає моделі, які мають занадто багато помилкових негативів. більше ніж точність.

Додаткові ресурси

Регресія vs. класифікація: в чому різниця?
Вступ до логістичної регресії
Як виконати логістичну регресію в R
Як виконати логістичну регресію в Python

Додати коментар

Ваша e-mail адреса не оприлюднюватиметься. Обов’язкові поля позначені *