Коэффициент ошибок классификации в машинном обучении: определение и пример

К бенджамин андерсон 19 июля, 2023 Гид 0 комментариев

В машинном обучении уровень ошибочной классификации — это показатель, который сообщает нам процент наблюдений, которые были неправильно предсказаны моделью классификации .

Он рассчитывается следующим образом:

Коэффициент ошибочной классификации = количество неверных прогнозов / общее количество прогнозов.

Значение коэффициента ошибочной классификации может варьироваться от 0 до 1, где:

0 представляет модель, которая не имела неверных прогнозов.
1 представляет модель, предсказания которой были совершенно неверны.

Чем ниже значение коэффициента ошибочной классификации, тем лучше модель классификации способна предсказать результаты переменной отклика .

В следующем примере показано, как на практике рассчитать частоту ошибок классификации для модели логистической регрессии .

Пример. Расчет частоты ошибок классификации для модели логистической регрессии.

Предположим, мы используем модель логистической регрессии, чтобы спрогнозировать, будут ли 400 различных баскетболистов колледжей выбраны в НБА.

Следующая матрица путаницы суммирует прогнозы, сделанные моделью:

рассчитать уровень ошибочной классификации модели логистической регрессии

Вот как можно рассчитать коэффициент ошибок классификации для модели:

Коэффициент ошибочной классификации = количество неверных прогнозов / общее количество прогнозов.
Коэффициент ошибок классификации = (ложноположительные + ложноотрицательные) / (общее количество прогнозов)
Коэффициент ошибочной классификации = (70 + 40) / (400)
Коэффициент ошибочной классификации = 0,275

Коэффициент ошибки классификации для этой модели составляет 0,275 или 27,5% .

Это означает, что модель неверно предсказала результат для 27,5% игроков.

Противоположностью коэффициенту ошибок классификации будет точность, которая рассчитывается следующим образом:

Точность = 1 – коэффициент ошибок классификации.
Точность = 1 – 0,275
Точность = 0,725

Это означает, что модель правильно предсказала результат для 72,5% игроков.

Преимущества и недостатки уровня ошибочной классификации

Уровень ошибочной классификации дает следующие преимущества :

Это легко интерпретировать . Коэффициент ошибки классификации 10 % означает, что модель сделала неверный прогноз для 10 % от общего числа наблюдений.
Это легко посчитать . Уровень ошибочной классификации рассчитывается как общее количество неверных прогнозов, разделенное на общее количество прогнозов.

Однако коэффициент ошибок классификации имеет следующие недостатки :

При этом не учитывается способ распределения данных . Например, предположим, что 90% всех игроков не выбраны в НБА. Если бы у нас была модель, которая просто предсказывала бы, что каждый игрок останется незадрафтованным, уровень ошибки классификации этой модели составил бы всего 10%. Это кажется низким показателем, но на самом деле модель не может правильно предсказать игрока, который будет выбран на драфте.

На практике мы часто рассчитываем коэффициент ошибок классификации модели с использованием других показателей, таких как:

Чувствительность : «истинно положительный результат» — процент положительных результатов, которые модель способна обнаружить.
Специфичность : «истинно отрицательный показатель» — процент отрицательных результатов, которые модель способна обнаружить.
Оценка F1 : показатель , который говорит нам, насколько точна модель относительно того, как распределяются данные.

Рассчитав значение каждой из этих метрик, мы можем полностью понять, насколько хорошо модель способна делать прогнозы.

Дополнительные ресурсы

В следующих руководствах представлена дополнительная информация об общих концепциях машинного обучения:

Введение в логистическую регрессию
Что такое сбалансированная точность?
Оценка F1 против точности: что использовать?

Об авторе

бенджамин андерсон

Здравствуйте, я Бенджамин, профессор статистики на пенсии, ставший преданным преподавателем Statorials. Имея обширный опыт и знания в области статистики, я хочу поделиться своими знаниями, чтобы расширить возможности студентов с помощью Statorials. Узнать больше

Пример. Расчет частоты ошибок классификации для модели логистической регрессии.

Преимущества и недостатки уровня ошибочной классификации

Дополнительные ресурсы

Об авторе

бенджамин андерсон

Добавить комментарий