Як виконати логістичну регресію в sas


Логістична регресія – це метод, який ми можемо використати для підгонки моделі регресії, коли змінна відповіді є двійковою.

Логістична регресія використовує метод, відомий як оцінка максимальної правдоподібності, щоб знайти рівняння такої форми:

log[p(X) / (1 p(X))] = β 0 + β 1 X 1 + β 2 X 2 + … + β p

золото:

  • X j : j- та прогнозна змінна
  • β j : оцінка коефіцієнта для j прогностичної змінної

Формула в правій частині рівняння передбачає логарифмічні шанси того, що змінна відповіді набере значення 1.

У наступному покроковому прикладі показано, як підігнати модель логістичної регресії в SAS.

Крок 1: Створіть набір даних

Спочатку ми створимо набір даних, що містить інформацію про наступні три змінні для 18 студентів:

  • Прийняття до певного коледжу (1 = так, 0 = ні)
  • GPA (шкала від 1 до 4)
  • Оцінка ACT (шкала від 1 до 36)
 /*create dataset*/
data my_data;
    input acceptance gpa act;
    datalines ;
1 3 30
0 1 21
0 2 26
0 1 24
1 3 29
1 3 34
0 3 31
1 2 29
0 1 21
1 2 21
0 1 15
1 3 32
1 4 31
1 4 29
0 1 24
1 4 29
1 3 21
1 4 34
;
run ;

/*view dataset*/
proc print data =my_data;

Крок 2: Підгонка моделі логістичної регресії

Далі ми використаємо логістику proc , щоб відповідати моделі логістичної регресії, використовуючи «acceptance» як змінну відповіді та «gpa» і «act» як змінні предиктора.

Примітка : для SAS необхідно вказати зменшення , щоб передбачити ймовірність того, що змінна відповіді прийме значення 1. За замовчуванням SAS передбачає ймовірність того, що змінна відповіді прийме значення 0.

 /*fit logistic regression model*/
proc logistic data =my_data descending ;
  model acceptance = gpa act;
run ;

Перша цікава таблиця має назву Model Fit Statistics .

З цієї таблиці ми можемо побачити значення AIC моделі, яке виявляється 16,595 . Чим нижче значення AIC, тим краще модель відповідає даним.

Однак не існує порогу для того, що вважається «хорошим» значенням AIC . Натомість ми використовуємо AIC, щоб порівняти відповідність кількох моделей одному набору даних. Модель з найнижчим значенням AIC зазвичай вважається найкращою.

Наступна цікава таблиця має назву Перевірка глобальної нульової гіпотези: BETA=0 .

З цієї таблиці ми можемо побачити значення хі-квадрат відношення ймовірності 13,4620 із відповідним значенням p 0,0012 .

Оскільки це p-значення менше 0,05, це говорить нам про те, що модель логістичної регресії в цілому є статистично значущою.

Далі ми можемо проаналізувати оцінки коефіцієнтів у таблиці під назвою «Аналіз оцінок максимальної ймовірності» .

З цієї таблиці ми можемо побачити коефіцієнти для gpa та act, які вказують на середню зміну логарифму шансів бути прийнятим до коледжу для збільшення на одну одиницю кожної змінної.

Наприклад:

  • Збільшення середнього балу на одну одиницю пов’язане зі збільшенням у середньому на 2,9665 логарифмічних шансів бути прийнятим до коледжу.
  • Підвищення балу ACT на одну одиницю пов’язане зі зниженням логарифмічних шансів бути прийнятим до коледжу в середньому на 0,1145 .

Відповідні p-значення в результаті також дають нам уявлення про те, наскільки ефективна кожна змінна предиктора в прогнозуванні ймовірності бути прийнятою:

  • GPA P-value: 0,0679
  • P-значення ACT: 0,6289

Це говорить нам про те, що середній бал є статистично значущим показником прийняття до коледжу, тоді як оцінка ACT не є статистично значущим.

Додаткові ресурси

У наступних посібниках пояснюється, як підігнати інші моделі регресії в SAS:

Як виконати просту лінійну регресію в SAS
Як виконати множинну лінійну регресію в SAS

Додати коментар

Ваша e-mail адреса не оприлюднюватиметься. Обов’язкові поля позначені *