Как выполнить пошаговую регрессию в sas (с примером)


Пошаговая регрессия — это процедура, которую мы можем использовать для построения модели регрессии из набора переменных-предикторов путем поэтапного ввода и удаления предикторов в модели до тех пор, пока не исчезнет статистически обоснованная причина для ввода или удаления предикторов. удалить еще.

Целью пошаговой регрессии является создание модели регрессии, включающей все переменные-предикторы, которые статистически значимо связаны с переменной ответа .

Чтобы выполнить пошаговую регрессию в SAS, вы можете использовать PROC REG с оператором SELECTION .

В следующем примере показано, как на практике выполнить пошаговую регрессию в SAS.

Пример: выполнение пошаговой регрессии в SAS

Предположим, у нас есть следующий набор данных в SAS, который содержит четыре переменные-предикторы (x1, x2, x3, x4) и одну переменную ответа (y):

 /*create dataset*/
data my_data;
    input x1 x2 x3 x4 y;
    datalines ;
1 4 10 13 78
2 4 12 14 81
5 3 7 10 75
8 2 13 9 97
10 5 12 5 95
14 7 8 6 90
17 8 10 6 86 
19 5 15 5 90
20 5 12 4 93
21 4 10 3 95
;
run ;

/*view dataset*/
proc print data =my_data;

Теперь предположим, что мы хотим определить, какая комбинация переменных-предикторов создаст лучшую модель множественной линейной регрессии .

Когда мы говорим о «лучшей» регрессионной модели, мы имеем в виду модель, которая максимизирует или минимизирует определенные показатели.

Есть две метрики, которые мы обычно используем для оценки того, какая модель регрессии является лучшей среди группы потенциальных моделей:

1. Скорректированный R-квадрат . Скорректированное значение R-квадрата говорит нам о полезности модели, скорректированной на основе количества предикторов в модели. Модель с наибольшим скорректированным значением R-квадрата считается лучшей.

2. AIC : Информационный критерий Акаике (AIC) — это показатель, используемый для сравнения соответствия различных моделей регрессии. Модель с наименьшим значением AIC считается лучшей.

К счастью, мы можем вычислить как подобранные значения R-квадрата, так и значения AIC для регрессионных моделей в SAS, используя PROC REG с оператором SELECTION .

Следующий код показывает, как это сделать:

 /*perform stepwise multiple linear regression*/
proc reg data =my_data outest =est;
    model y=x1 x2 x3 x4 / selection=adjrsq aic ;
    output out =out p=pr=r;
run ;
quit ; 

пошаговая регрессия в SAS

На выходе отображаются подобранные значения R-квадрата и AIC для каждой возможной модели множественной линейной регрессии.

Из результата мы видим, что значение с самым высоким скорректированным значением R-квадрата и самым низким значением AIC представляет собой регрессионную модель, которая использует только x3 и x4 в качестве переменных-предикторов.

Таким образом, мы заявляем, что следующая модель является «лучшей» среди всех возможных моделей:

у = б 0 + б 1 (х3) + б 2 (х4)

Эта конкретная регрессионная модель имеет следующие показатели:

  • Скорректированное значение R-квадрата: 0,5923.
  • АИК: 34.2921

Примечания по выбору «лучшей» регрессионной модели

Обратите внимание, что иногда модель с самым высоким скорректированным значением R-квадрата не всегда также имеет самое низкое значение AIC.

Когда дело доходит до принятия решения о том, какая модель регрессии лучше, в качестве рекомендаций можно использовать скорректированные R-квадрат и AIC, но в реальном мире вам может потребоваться использовать опыт в предметной области, чтобы определить, какая модель является лучшей.

Также может быть разумным выбратьэкономную модель , то есть модель, которая достигает желаемого уровня соответствия, используя как можно меньше переменных-предикторов.

Обоснование модели этого типа проистекает из идеи бритвы Оккама (иногда называемой «принципом экономности»), которая гласит, что самое простое объяснение, вероятно, является правильным.

Применительно к статистике, модель, которая имеет мало параметров, но достигает удовлетворительного уровня соответствия, должна быть предпочтительнее модели, которая имеет массу параметров и достигает лишь немного более высокого уровня соответствия.

Дополнительные ресурсы

В следующих руководствах объясняется, как выполнять другие распространенные задачи в SAS:

Как выполнить простую линейную регрессию в SAS
Как выполнить множественную линейную регрессию в SAS
Как выполнить полиномиальную регрессию в SAS
Как выполнить логистическую регрессию в SAS

Добавить комментарий

Ваш адрес email не будет опубликован. Обязательные поля помечены *