Коэффициент ошибок классификации в машинном обучении: определение и пример


В машинном обучении уровень ошибочной классификации — это показатель, который сообщает нам процент наблюдений, которые были неправильно предсказаны моделью классификации .

Он рассчитывается следующим образом:

Коэффициент ошибочной классификации = количество неверных прогнозов / общее количество прогнозов.

Значение коэффициента ошибочной классификации может варьироваться от 0 до 1, где:

  • 0 представляет модель, которая не имела неверных прогнозов.
  • 1 представляет модель, предсказания которой были совершенно неверны.

Чем ниже значение коэффициента ошибочной классификации, тем лучше модель классификации способна предсказать результаты переменной отклика .

В следующем примере показано, как на практике рассчитать частоту ошибок классификации для модели логистической регрессии .

Пример. Расчет частоты ошибок классификации для модели логистической регрессии.

Предположим, мы используем модель логистической регрессии, чтобы спрогнозировать, будут ли 400 различных баскетболистов колледжей выбраны в НБА.

Следующая матрица путаницы суммирует прогнозы, сделанные моделью:

рассчитать уровень ошибочной классификации модели логистической регрессии

Вот как можно рассчитать коэффициент ошибок классификации для модели:

  • Коэффициент ошибочной классификации = количество неверных прогнозов / общее количество прогнозов.
  • Коэффициент ошибок классификации = (ложноположительные + ложноотрицательные) / (общее количество прогнозов)
  • Коэффициент ошибочной классификации = (70 + 40) / (400)
  • Коэффициент ошибочной классификации = 0,275

Коэффициент ошибки классификации для этой модели составляет 0,275 или 27,5% .

Это означает, что модель неверно предсказала результат для 27,5% игроков.

Противоположностью коэффициенту ошибок классификации будет точность, которая рассчитывается следующим образом:

  • Точность = 1 – коэффициент ошибок классификации.
  • Точность = 1 – 0,275
  • Точность = 0,725

Это означает, что модель правильно предсказала результат для 72,5% игроков.

Преимущества и недостатки уровня ошибочной классификации

Уровень ошибочной классификации дает следующие преимущества :

  • Это легко интерпретировать . Коэффициент ошибки классификации 10 % означает, что модель сделала неверный прогноз для 10 % от общего числа наблюдений.
  • Это легко посчитать . Уровень ошибочной классификации рассчитывается как общее количество неверных прогнозов, разделенное на общее количество прогнозов.

Однако коэффициент ошибок классификации имеет следующие недостатки :

  • При этом не учитывается способ распределения данных . Например, предположим, что 90% всех игроков не выбраны в НБА. Если бы у нас была модель, которая просто предсказывала бы, что каждый игрок останется незадрафтованным, уровень ошибки классификации этой модели составил бы всего 10%. Это кажется низким показателем, но на самом деле модель не может правильно предсказать игрока, который будет выбран на драфте.

На практике мы часто рассчитываем коэффициент ошибок классификации модели с использованием других показателей, таких как:

  • Чувствительность : «истинно положительный результат» — процент положительных результатов, которые модель способна обнаружить.
  • Специфичность : «истинно отрицательный показатель» — процент отрицательных результатов, которые модель способна обнаружить.
  • Оценка F1 : показатель , который говорит нам, насколько точна модель относительно того, как распределяются данные.

Рассчитав значение каждой из этих метрик, мы можем полностью понять, насколько хорошо модель способна делать прогнозы.

Дополнительные ресурсы

В следующих руководствах представлена дополнительная информация об общих концепциях машинного обучения:

Введение в логистическую регрессию
Что такое сбалансированная точность?
Оценка F1 против точности: что использовать?

Добавить комментарий

Ваш адрес email не будет опубликован. Обязательные поля помечены *