Как выполнить логистическую регрессию в sas


Логистическая регрессия — это метод, который мы можем использовать для подбора модели регрессии, когда переменная ответа является двоичной.

Логистическая регрессия использует метод, известный как оценка максимального правдоподобия , для нахождения уравнения следующей формы:

log[p(X)/(1 p(X))] = β 0 + β 1 X 1 + β 2 X 2 + … + β p

Золото:

  • X j : j- я прогнозируемая переменная
  • β j : оценка коэффициента для j прогнозируемой переменной

Формула в правой части уравнения предсказывает логарифмическую вероятность того, что переменная ответа примет значение 1.

В следующем пошаговом примере показано, как реализовать модель логистической регрессии в SAS.

Шаг 1. Создайте набор данных

Сначала мы создадим набор данных, содержащий информацию о следующих трех переменных для 18 студентов:

  • Прием в определенный колледж (1 = да, 0 = нет)
  • Средний балл (шкала от 1 до 4)
  • Оценка ACT (шкала от 1 до 36)
 /*create dataset*/
data my_data;
    input acceptance gpa act;
    datalines ;
1 3 30
0 1 21
0 2 26
0 1 24
1 3 29
1 3 34
0 3 31
1 2 29
0 1 21
1 2 21
0 1 15
1 3 32
1 4 31
1 4 29
0 1 24
1 4 29
1 3 21
1 4 34
;
run ;

/*view dataset*/
proc print data =my_data;

Шаг 2. Подберите модель логистической регрессии

Далее мы будем использовать логистику процессов , чтобы соответствовать модели логистической регрессии, используя «принятие» в качестве переменной ответа, а «gpa» и «действие» в качестве переменных-предсказателей.

Примечание . Чтобы SAS прогнозировал вероятность того, что переменная ответа примет значение 1, необходимо указать уменьшение . По умолчанию SAS прогнозирует вероятность того, что переменная ответа примет значение 0.

 /*fit logistic regression model*/
proc logistic data =my_data descending ;
  model acceptance = gpa act;
run ;

Первая интересующая таблица называется «Статистика соответствия модели» .

Из этой таблицы мы видим значение AIC модели, которое оказывается равным 16,595 . Чем ниже значение AIC, тем лучше модель соответствует данным.

Однако не существует порога того, что считается «хорошим» значением AIC . Скорее, мы используем AIC для сравнения соответствия нескольких моделей одному и тому же набору данных. Модель с наименьшим значением AIC обычно считается лучшей.

Следующая интересная таблица называется «Проверка глобальной нулевой гипотезы: BETA=0 ».

Из этой таблицы мы можем видеть значение хи-квадрат отношения правдоподобия 13,4620 с соответствующим значением p 0,0012 .

Поскольку это значение p меньше 0,05, это говорит нам о том, что модель логистической регрессии в целом статистически значима.

Далее мы можем проанализировать оценки коэффициентов в таблице под названием «Анализ оценок максимального правдоподобия» .

Из этой таблицы мы можем увидеть коэффициенты для среднего балла и действия, которые указывают среднее изменение логарифмических шансов быть принятым в колледж при увеличении на одну единицу каждой переменной.

Например:

  • Увеличение среднего балла на одну единицу связано со средним увеличением на 2,9665 логарифмических шансов быть принятым в колледж.
  • Увеличение балла ACT на одну единицу связано со средним снижением на 0,1145 логарифмических шансов быть принятым в колледж.

Соответствующие значения p в результате также дают нам представление о том, насколько эффективна каждая переменная-предиктор в прогнозировании вероятности ее принятия:

  • GPA P-значение: 0,0679
  • Значение ACT P: 0,6289

Это говорит нам о том, что средний балл является статистически значимым предиктором поступления в колледж, в то время как балл ACT не является статистически значимым.

Дополнительные ресурсы

В следующих руководствах объясняется, как адаптировать другие модели регрессии в SAS:

Как выполнить простую линейную регрессию в SAS
Как выполнить множественную линейную регрессию в SAS

Добавить комментарий

Ваш адрес email не будет опубликован. Обязательные поля помечены *