Як створити криву roc у sas


Логістична регресія – це метод, який ми можемо використати для підгонки моделі регресії, коли змінна відповіді є двійковою.

Щоб оцінити, наскільки модель логістичної регресії відповідає набору даних, ми можемо розглянути такі два показники:

  • Чутливість: ймовірність того, що модель передбачає позитивний результат для спостереження, коли результат насправді позитивний. Це також називається «справжній позитивний показник».
  • Специфічність: ймовірність того, що модель передбачає негативний результат для спостереження, коли результат насправді негативний. Це також називається «справжній негативний показник».

Одним із способів візуалізації цих двох вимірювань є створення кривої ROC , що означає криву «робоча характеристика приймача». Це графік, який відображає чутливість і специфічність моделі логістичної регресії.

У наступному покроковому прикладі показано, як створити та інтерпретувати криву ROC у SAS.

Крок 1: Створіть набір даних

Спочатку ми створимо набір даних, що містить інформацію про такі змінні для 18 студентів:

  • Прийняття до певного коледжу (1 = так, 0 = ні)
  • GPA (шкала від 1 до 4)
  • Оцінка ACT (шкала від 1 до 36)
 /*create dataset*/
data my_data;
    input acceptance gpa act;
    datalines ;
1 3 30
0 1 21
0 2 26
0 1 24
1 3 29
1 3 34
0 3 31
1 2 29
0 1 21
1 2 21
0 1 15
1 3 32
1 4 31
1 4 29
0 1 24
1 4 29
1 3 21
1 4 34
;
run ;

Крок 2. Підберіть модель логістичної регресії та створіть криву ROC

Далі ми використаємо логістику proc , щоб відповідати моделі логістичної регресії, використовуючи «acceptance» як змінну відповіді та «gpa» і «act» як змінні предиктора.

Ми вкажемо зменшення , щоб SAS знав, як передбачити ймовірність того, що змінна відповіді приймає значення 1.

Ми також використаємо plots(only)=roc для створення кривої ROC для моделі:

 /*fit logistic regression model & create ROC curve*/
proc logistic data =my_data descending plots ( only )=roc;
  model acceptance = gpa act;
run ;

Крива ROC в SAS

Крок 3: Інтерпретація кривої ROC

Чим ближче крива ROC підходить до верхнього лівого кута графіка, тим краще модель передбачає значення значень відповіді в наборі даних.

На графіку вище ми бачимо, що синя крива ROC має тенденцію обіймати верхній лівий кут, що вказує на те, що модель логістичної регресії добре справляється з прогнозуванням значення значень відповіді.

Щоб кількісно визначити, наскільки модель логістичної регресії відповідає даним, ми можемо обчислити AUC – площу під кривою – яка повідомляє нам, яка частина графіка знаходиться під кривою.

Чим ближче AUC до 1, тим краща модель. Модель з AUC, що дорівнює 0,5, не краща за модель, яка виконує випадкову класифікацію.

Під заголовком діаграми вище ми бачимо, що AUC цієї моделі становить 0,9351 .

Оскільки це значення близьке до одиниці, це підтверджує, що модель добре прогнозує значення значень відповіді.

Ми також можемо використовувати значення AUC для порівняння відповідності різних моделей логістичної регресії.

Наприклад, припустимо, що ми підбираємо дві різні моделі логістичної регресії та обчислюємо значення AUC для кожної:

  • AUC моделі 1: 0,9351
  • AUC моделі 2: 0,8140

Оскільки AUC моделі 1 більший, це говорить нам про те, що модель 1 краще підбирає дані, ніж модель 2.

Додаткові ресурси

У наступних посібниках пояснюється, як виконувати інші типові операції в SAS:

Як виконати просту лінійну регресію в SAS
Як виконати множинну лінійну регресію в SAS
Як виконати логістичну регресію в SAS

Додати коментар

Ваша e-mail адреса не оприлюднюватиметься. Обов’язкові поля позначені *