Оценка f1 против точности: что использовать?
При использовании моделей классификации в машинном обучении для оценки качества модели мы часто используем два показателя: показатель F1 и точность .
Для обеих метрик, чем выше значение, тем лучше модель классифицирует наблюдения по классам.
Однако каждая метрика рассчитывается по разной формуле, и ее использование имеет свои преимущества и недостатки.
В следующем примере показано, как на практике вычислить каждую метрику.
Пример: расчет оценки и точности F1
Предположим, мы используем модель логистической регрессии, чтобы спрогнозировать, будут ли 400 различных баскетболистов колледжей выбраны в НБА.
Следующая матрица путаницы суммирует прогнозы, сделанные моделью:
Вот как можно рассчитать различные показатели матрицы путаницы:
Точность: правильные положительные прогнозы относительно общего числа положительных прогнозов.
- Точность = истинно положительный результат / (истинный положительный результат + ложный положительный результат)
- Точность = 120 / (120 + 70)
- Точность = 0,63
Напоминание: корректируйте положительные прогнозы по сравнению с общим фактическим положительным прогнозом.
- Отзыв = Истинно положительный / (Истинно положительный + Ложно отрицательный)
- Напомним = 120 / (120 + 40)
- Напомним = 0,75
Точность: процент всех наблюдений, правильно классифицированных.
- Точность = (Истинно положительный + Истинно отрицательный) / (Общий размер выборки)
- Точность = (120 + 170) / (400)
- Точность = 0,725
Оценка F1: среднее гармоническое значение точности и полноты
- Оценка F1 = 2 * (Точность * Отзыв) / (Точность + Отзыв)
- Оценка F1 = 2 * (0,63 * 0,75) / (0,63 + 0,75)
- Оценка F1 = 0,685
Когда использовать оценку F1 в сравнении с точностью
Есть плюсы и минусы использования очков и точности F1.
Точность :
Плюсы : Легко интерпретировать. Если мы говорим, что точность модели составляет 90 %, мы знаем, что она правильно классифицировала 90 % наблюдений.
Недостаток : не учитывается способ распределения данных. Например, предположим, что 90% всех игроков не выбраны в НБА. Если бы у нас была модель, которая просто предсказывала бы, что каждый игрок останется незадрафтованным, она бы правильно предсказала результат для 90% игроков. Это значение кажется высоким, но на самом деле модель не может правильно предсказать, какие игроки будут выбраны.
Результаты Ф1 :
Плюсы : подумайте, как распределяются данные. Например, если данные сильно несбалансированы (например, 90% всех игроков не задрафтованы, а 10% — нет), то оценка F1 обеспечит лучшую оценку эффективности модели.
Недостаток : сложнее интерпретировать. Оценка F1 представляет собой сочетание точности и полноты модели, что несколько усложняет ее интерпретацию.
В целом:
Мы часто используем точность , когда классы сбалансированы и нет серьезных недостатков в прогнозировании ложноотрицательных результатов.
Мы часто используем оценку F1 , когда классы несбалансированы и существует серьезный недостаток в прогнозировании ложноотрицательных результатов.
Например, если мы используем модель логистической регрессии, чтобы предсказать, есть ли у человека рак, ложноотрицательные результаты очень плохи (например, прогнозирование того, что у человека нет рака, хотя на самом деле он болен а), поэтому показатель F1 будет наказывать модели, у которых есть слишком много ложноотрицательных результатов. больше, чем точность.
Дополнительные ресурсы
Регрессия против. классификация: в чем разница?
Введение в логистическую регрессию
Как выполнить логистическую регрессию в R
Как выполнить логистическую регрессию в Python