Как создать кривую roc в sas
Логистическая регрессия — это метод, который мы можем использовать для подбора модели регрессии, когда переменная ответа является двоичной.
Чтобы оценить, насколько хорошо модель логистической регрессии соответствует набору данных, мы можем взглянуть на следующие два показателя:
- Чувствительность: вероятность того, что модель предсказывает положительный результат наблюдения, когда результат на самом деле положительный. Это также называется «истинно положительным показателем».
- Специфичность: вероятность того, что модель предсказывает отрицательный результат наблюдения, хотя на самом деле результат отрицательный. Это также называют «истинно отрицательной ставкой».
Один из способов визуализировать эти два измерения — создать кривую ROC , которая означает кривую «рабочей характеристики приемника». Это график, показывающий чувствительность и специфичность модели логистической регрессии.
В следующем пошаговом примере показано, как создать и интерпретировать кривую ROC в SAS.
Шаг 1. Создайте набор данных
Сначала мы создадим набор данных, содержащий информацию о следующих переменных для 18 студентов:
- Прием в определенный колледж (1 = да, 0 = нет)
- Средний балл (шкала от 1 до 4)
- Оценка ACT (шкала от 1 до 36)
/*create dataset*/ data my_data; input acceptance gpa act; datalines ; 1 3 30 0 1 21 0 2 26 0 1 24 1 3 29 1 3 34 0 3 31 1 2 29 0 1 21 1 2 21 0 1 15 1 3 32 1 4 31 1 4 29 0 1 24 1 4 29 1 3 21 1 4 34 ; run ;
Шаг 2. Подберите модель логистической регрессии и создайте кривую ROC.
Далее мы будем использовать логистику процессов , чтобы соответствовать модели логистической регрессии, используя «принятие» в качестве переменной ответа, а «gpa» и «действие» в качестве переменных-предсказателей.
Мы укажем уменьшение , чтобы SAS знал, как предсказать вероятность того, что переменная ответа примет значение 1.
Мы также будем использоватьplots (only)=roc , чтобы создать кривую ROC для модели:
/*fit logistic regression model & create ROC curve*/
proc logistic data =my_data descending plots ( only )=roc;
model acceptance = gpa act;
run ;
Шаг 3: Интерпретация кривой ROC
Чем ближе кривая ROC подходит к верхнему левому углу графика, тем лучше модель предсказывает значение значений ответа в наборе данных.
На графике выше мы видим, что синяя кривая ROC имеет тенденцию охватывать верхний левый угол, что указывает на то, что модель логистической регрессии хорошо прогнозирует значение значений ответа.
Чтобы количественно оценить, насколько хорошо модель логистической регрессии соответствует данным, мы можем рассчитать AUC — площадь под кривой — которая говорит нам, какая часть графика находится под кривой.
Чем ближе AUC к 1, тем лучше модель. Модель с AUC, равной 0,5, не лучше модели, выполняющей случайную классификацию.
Под заголовком диаграммы выше мы видим, что AUC этой модели составляет 0,9351 .
Поскольку это значение близко к единице, это подтверждает, что модель хорошо предсказывает значение значений ответа.
Мы также можем использовать значение AUC для сравнения соответствия различных моделей логистической регрессии.
Например, предположим, что мы подбираем две разные модели логистической регрессии и вычисляем значения AUC для каждой:
- AUC модели 1: 0,9351.
- AUC модели 2: 0,8140.
Поскольку AUC модели 1 больше, это говорит нам о том, что модель 1 лучше подбирает данные, чем модель 2.
Дополнительные ресурсы
В следующих руководствах объясняется, как выполнять другие распространенные операции в SAS:
Как выполнить простую линейную регрессию в SAS
Как выполнить множественную линейную регрессию в SAS
Как выполнить логистическую регрессию в SAS