Коэффициент ошибок классификации в машинном обучении: определение и пример
В машинном обучении уровень ошибочной классификации — это показатель, который сообщает нам процент наблюдений, которые были неправильно предсказаны моделью классификации .
Он рассчитывается следующим образом:
Коэффициент ошибочной классификации = количество неверных прогнозов / общее количество прогнозов.
Значение коэффициента ошибочной классификации может варьироваться от 0 до 1, где:
- 0 представляет модель, которая не имела неверных прогнозов.
- 1 представляет модель, предсказания которой были совершенно неверны.
Чем ниже значение коэффициента ошибочной классификации, тем лучше модель классификации способна предсказать результаты переменной отклика .
В следующем примере показано, как на практике рассчитать частоту ошибок классификации для модели логистической регрессии .
Пример. Расчет частоты ошибок классификации для модели логистической регрессии.
Предположим, мы используем модель логистической регрессии, чтобы спрогнозировать, будут ли 400 различных баскетболистов колледжей выбраны в НБА.
Следующая матрица путаницы суммирует прогнозы, сделанные моделью:
Вот как можно рассчитать коэффициент ошибок классификации для модели:
- Коэффициент ошибочной классификации = количество неверных прогнозов / общее количество прогнозов.
- Коэффициент ошибок классификации = (ложноположительные + ложноотрицательные) / (общее количество прогнозов)
- Коэффициент ошибочной классификации = (70 + 40) / (400)
- Коэффициент ошибочной классификации = 0,275
Коэффициент ошибки классификации для этой модели составляет 0,275 или 27,5% .
Это означает, что модель неверно предсказала результат для 27,5% игроков.
Противоположностью коэффициенту ошибок классификации будет точность, которая рассчитывается следующим образом:
- Точность = 1 – коэффициент ошибок классификации.
- Точность = 1 – 0,275
- Точность = 0,725
Это означает, что модель правильно предсказала результат для 72,5% игроков.
Преимущества и недостатки уровня ошибочной классификации
Уровень ошибочной классификации дает следующие преимущества :
- Это легко интерпретировать . Коэффициент ошибки классификации 10 % означает, что модель сделала неверный прогноз для 10 % от общего числа наблюдений.
- Это легко посчитать . Уровень ошибочной классификации рассчитывается как общее количество неверных прогнозов, разделенное на общее количество прогнозов.
Однако коэффициент ошибок классификации имеет следующие недостатки :
- При этом не учитывается способ распределения данных . Например, предположим, что 90% всех игроков не выбраны в НБА. Если бы у нас была модель, которая просто предсказывала бы, что каждый игрок останется незадрафтованным, уровень ошибки классификации этой модели составил бы всего 10%. Это кажется низким показателем, но на самом деле модель не может правильно предсказать игрока, который будет выбран на драфте.
На практике мы часто рассчитываем коэффициент ошибок классификации модели с использованием других показателей, таких как:
- Чувствительность : «истинно положительный результат» — процент положительных результатов, которые модель способна обнаружить.
- Специфичность : «истинно отрицательный показатель» — процент отрицательных результатов, которые модель способна обнаружить.
- Оценка F1 : показатель , который говорит нам, насколько точна модель относительно того, как распределяются данные.
Рассчитав значение каждой из этих метрик, мы можем полностью понять, насколько хорошо модель способна делать прогнозы.
Дополнительные ресурсы
В следующих руководствах представлена дополнительная информация об общих концепциях машинного обучения:
Введение в логистическую регрессию
Что такое сбалансированная точность?
Оценка F1 против точности: что использовать?