Что такое сбалансированная точность? (определение & #038; пример)


Сбалансированная точность — это показатель, который мы можем использовать для оценки производительности модели классификации .

Он рассчитывается следующим образом:

Сбалансированная точность = (Чувствительность + Специфичность) / 2

Золото:

  • Чувствительность : «истинно положительный показатель» — процент положительных случаев, которые модель способна обнаружить.
  • Специфичность : «истинно отрицательный показатель» — процент отрицательных случаев, которые модель способна обнаружить.

Этот показатель особенно полезен, когда два класса несбалансированы, то есть один класс появляется намного больше, чем другой.

В следующем примере показано, как на практике рассчитать сбалансированную точность, и показано, почему это такой полезный показатель.

Пример: расчет сбалансированной точности

Предположим, спортивный аналитик использует модель логистической регрессии , чтобы спрогнозировать, будут ли 400 баскетболистов из разных колледжей выбраны в НБА.

Следующая матрица путаницы суммирует прогнозы, сделанные моделью:

Чтобы рассчитать сбалансированную точность модели, мы сначала рассчитаем чувствительность и специфичность:

  • Чувствительность : «истинно положительный уровень» = 15 / (15 + 5) = 0,75.
  • Специфичность : «истинно отрицательный коэффициент» = 375 / (375 + 5) = 0,9868.

Затем мы можем рассчитать сбалансированную точность следующим образом:

  • Сбалансированная точность = (Чувствительность + Специфичность) / 2
  • Сбалансированная точность = (0,75 + 9868)/2
  • Сбалансированная точность = 0,8684

Сбалансированная точность модели оказывается равной 0,8684 .

Обратите внимание: чем ближе сбалансированная точность к 1, тем лучше модель способна правильно классифицировать наблюдения.

В этом примере сбалансированная точность довольно высока, что говорит нам о том, что модель логистической регрессии очень хорошо прогнозирует, будут ли игроки колледжа призваны в НБА.

В этом сценарии, поскольку классы очень несбалансированы (20 игроков были выбраны, а 380 игроков — нет), сбалансированная точность дает нам более реалистичную картину производительности модели по сравнению с общим показателем точности.

Например, мы могли бы рассчитать точность модели следующим образом:

  • Точность = (TP + TN) / (TP + TN + FP + FN)
  • Точность = (15 + 375) / (15 + 375 + 5 + 5)
  • Точность = 0,975

Точность модели составляет 0,975 , что кажется чрезвычайно высоким.

Однако рассмотрим модель, которая просто предсказывает, что каждый игрок останется незадрафтованным. Точность будет 380/400 = 0,95 . Это лишь немного ниже точности нашей модели.

Сбалансированный показатель точности 0,8684 дает нам лучшее представление о способности модели прогнозировать оба класса.

Другими словами, это дает нам лучшее представление о способности модели предсказывать, какие игроки останутся незадрафтованными , а какие останутся.

Дополнительные ресурсы

В следующих руководствах объясняется, как создать матрицу путаницы в различных статистических программах:

Как создать матрицу путаницы в Excel
Как создать матрицу путаницы в R
Как создать матрицу путаницы в Python

Добавить комментарий

Ваш адрес email не будет опубликован. Обязательные поля помечены *