Как создать и интерпретировать кривую roc в stata
Логистическая регрессия — это статистический метод, который мы используем для подбора модели регрессии, когда переменная ответа является двоичной. Чтобы оценить, насколько хорошо модель логистической регрессии соответствует набору данных, мы можем взглянуть на следующие два показателя:
- Чувствительность: вероятность того, что модель предсказывает положительный результат наблюдения, когда результат на самом деле положительный.
- Специфичность: вероятность того, что модель предсказывает отрицательный результат наблюдения, хотя на самом деле результат отрицательный.
Простой способ визуализировать эти два показателя — создать кривую ROC , которая представляет собой график, отображающий чувствительность и специфичность модели логистической регрессии.
В этом руководстве объясняется, как создать и интерпретировать кривую ROC в Stata.
Пример: кривая ROC в Stata
В этом примере мы будем использовать набор данных под названием lbw , который содержит следующие переменные для 189 матерей:
- низкий – имеет ли ребенок низкий вес при рождении. 1 = да, 0 = нет.
- age – возраст матери.
- курение – курила ли мать во время беременности. 1 = да, 0 = нет.
Мы применим модель логистической регрессии к данным, используя возраст и курение в качестве объясняющих переменных, а низкий вес при рождении — в качестве переменной ответа. Далее мы создадим кривую ROC, чтобы проанализировать, насколько хорошо модель соответствует данным.
Шаг 1: Загрузите и отобразите данные.
Загрузите данные с помощью следующей команды:
используйте https://www.stata-press.com/data/r13/lbw
Получите быстрое представление о наборе данных, используя следующую команду:
обобщить
В наборе данных 11 различных переменных, но нас интересуют только три: низкий уровень курения, возраст и курение.
Шаг 2. Подберите модель логистической регрессии.
Используйте следующую команду, чтобы подогнать модель логистической регрессии:
курение в юном возрасте логит
Шаг 3: Создайте кривую ROC.
Мы можем создать кривую ROC для модели, используя следующую команду:
ЛРОК
Шаг 4: Интерпретируйте кривую ROC.
Когда мы подбираем модель логистической регрессии, ее можно использовать для расчета вероятности того, что данное наблюдение будет иметь положительный результат, на основе значений переменных-предикторов.
Чтобы определить, следует ли классифицировать наблюдение как положительное, мы можем выбрать такой порог, при котором наблюдения со скорректированной вероятностью выше порога классифицируются как положительные, а все наблюдения со скорректированной вероятностью ниже порога классифицируются как отрицательные. .
Например, предположим, что мы выбрали порог 0,5. Это означает, что любое наблюдение со скорректированной вероятностью больше 0,5 будет иметь положительный результат, в то время как любое наблюдение со скорректированной вероятностью меньше или равной 0,5 будет иметь отрицательный результат.
Кривая ROC показывает нам значения чувствительности в зависимости от специфичности 1, когда пороговое значение изменяется от 0 до 1. Модель с высокой чувствительностью и специфичностью будет иметь кривую ROC, охватывающую левый верхний угол графика. Модель с низкой чувствительностью и низкой специфичностью будет иметь кривую, близкую к диагонали 45 градусов.
AUC (площадь под кривой) дает нам представление о способности модели различать положительные и отрицательные результаты. AUC может варьироваться от 0 до 1. Чем выше AUC, тем лучше модель правильно классифицирует результаты. В нашем примере мы видим, что AUC составляет 0,6111 .
Мы можем использовать AUC для сравнения производительности двух или более моделей. Модель с самой высокой AUC работает лучше всего.
Дополнительные ресурсы
Как выполнить логистическую регрессию в Stata
Как интерпретировать кривую ROC и AUC модели логистической регрессии