Как интерпретировать кривую roc (с примерами)
Логистическая регрессия — это статистический метод, который мы используем для подбора модели регрессии, когда переменная ответа является двоичной. Чтобы оценить, насколько хорошо модель логистической регрессии соответствует набору данных, мы можем взглянуть на следующие два показателя:
- Чувствительность: вероятность того, что модель предсказывает положительный результат наблюдения, когда результат на самом деле положительный.
- Специфичность: вероятность того, что модель предсказывает отрицательный результат наблюдения, хотя на самом деле результат отрицательный.
Простой способ визуализировать эти два показателя — создать кривую ROC , которая представляет собой график, отображающий чувствительность и специфичность модели логистической регрессии.
В этом руководстве объясняется, как создать и интерпретировать кривую ROC.
Как создать кривую ROC
После того, как мы создали модель логистической регрессии, мы можем использовать ее для классификации наблюдений по одной из двух категорий.
Например, мы могли бы классифицировать наблюдения как «положительные» или «негативные».
Истинно положительный показатель представляет собой долю наблюдений, которые должны быть положительными, когда они на самом деле таковы.
И наоборот, уровень ложноположительных результатов представляет собой долю наблюдений, которые должны быть положительными, но на самом деле являются отрицательными.
Когда мы создаем кривую ROC, мы отображаем пары истинно положительного результата и уровня ложноположительного результата для каждого возможного порога принятия решения модели логистической регрессии.
Как интерпретировать кривую ROC
Чем ближе кривая ROC соответствует верхнему левому углу графика, тем лучше модель способна классифицировать данные по категориям.
Чтобы количественно оценить это, мы можем рассчитать AUC (площадь под кривой), которая говорит нам, какая часть графика находится под кривой.
Чем ближе AUC к 1, тем лучше модель.
Модель с AUC, равной 0,5, будет идеально диагональной линией и будет представлять собой модель, которая не лучше, чем модель, выполняющая случайную классификацию.
Особенно полезно рассчитывать AUC для нескольких моделей логистической регрессии, поскольку это позволяет нам увидеть, какая модель лучше всего подходит для прогнозирования.
Например, предположим, что мы подбираем три разные модели логистической регрессии и строим следующие кривые ROC для каждой модели:
Предположим, мы рассчитываем AUC для каждой модели следующим образом:
- Модель А: AUC = 0,923
- Модель Б: AUC = 0,794.
- Модель C: AUC = 0,588.
Модель A имеет самый высокий AUC, что указывает на то, что она имеет наибольшую площадь под кривой и является лучшей моделью для правильной классификации наблюдений по категориям.
Дополнительные ресурсы
В следующих руководствах объясняется, как создавать кривые ROC с помощью различного статистического программного обеспечения: