Como realizar a regressão passo a passo no sas (com exemplo)


A regressão passo a passo é um procedimento que podemos usar para construir um modelo de regressão a partir de um conjunto de variáveis preditoras, inserindo e removendo preditores passo a passo no modelo até que n Não haja mais uma razão estatisticamente válida para inserir ou exclua mais.

O objetivo da regressão stepwise é criar um modelo de regressão que inclua todas as variáveis preditoras que estão estatisticamente relacionadas de forma significativa à variável de resposta .

Para realizar a regressão passo a passo no SAS, você pode usar PROC REG com a instrução SELECTION .

O exemplo a seguir mostra como realizar a regressão stepwise no SAS na prática.

Exemplo: realizando uma regressão passo a passo no SAS

Suponha que temos o seguinte conjunto de dados no SAS que contém quatro variáveis preditoras (x1, x2, x3, x4) e uma variável de resposta (y):

 /*create dataset*/
data my_data;
    input x1 x2 x3 x4 y;
    datalines ;
1 4 10 13 78
2 4 12 14 81
5 3 7 10 75
8 2 13 9 97
10 5 12 5 95
14 7 8 6 90
17 8 10 6 86 
19 5 15 5 90
20 5 12 4 93
21 4 10 3 95
;
run ;

/*view dataset*/
proc print data =my_data;

Agora, suponha que queiramos determinar qual combinação de variáveis preditoras produzirá o melhor modelo de regressão linear múltipla .

Quando falamos sobre o “melhor” modelo de regressão, queremos dizer o modelo que maximiza ou minimiza certas medidas.

Existem duas métricas que normalmente usamos para avaliar qual modelo de regressão é melhor entre um grupo de modelos potenciais:

1. R-quadrado ajustado : O valor de R-quadrado ajustado nos diz a utilidade de um modelo, ajustado com base no número de preditores em um modelo. O modelo com maior valor de R-quadrado ajustado é considerado o melhor.

2. AIC : O Critério de Informação de Akaike (AIC) é uma métrica usada para comparar o ajuste de diferentes modelos de regressão. O modelo com menor valor de AIC é considerado o melhor.

Felizmente, podemos calcular os valores ajustados de R-quadrado e AIC para modelos de regressão no SAS usando PROC REG com a instrução SELECTION .

O código a seguir mostra como fazer isso:

 /*perform stepwise multiple linear regression*/
proc reg data =my_data outest =est;
    model y=x1 x2 x3 x4 / selection=adjrsq aic ;
    output out =out p=pr=r;
run ;
quit ; 

regressão passo a passo no SAS

A saída exibe os valores ajustados de R-quadrado e AIC para cada modelo de regressão linear múltipla possível.

Pelo resultado, podemos perceber que o valor com maior valor de R quadrado ajustado e menor valor de AIC é o modelo de regressão que utiliza apenas x3 e x4 como variáveis preditoras.

Assim, declaramos que o seguinte modelo é “o melhor” entre todos os modelos possíveis:

y = b 0 + b 1 (x3) + b 2 (x4)

Este modelo de regressão específico possui as seguintes métricas:

  • Valor R-quadrado ajustado: 0,5923
  • AIC: 34.2921

Notas sobre a seleção do “melhor” modelo de regressão

Observe que às vezes o modelo com o maior valor de R-quadrado ajustado nem sempre também possui o menor valor de AIC.

Quando se trata de decidir qual modelo de regressão é o melhor, o R-quadrado ajustado e o AIC servem como sugestões, mas no mundo real pode ser necessário usar conhecimentos de domínio para determinar qual modelo é o melhor.

Também pode ser sensato escolher um modelo parcimonioso , ou seja, um modelo que atinja um nível de ajuste desejado usando o menor número possível de variáveis preditoras.

O raciocínio por trás deste tipo de modelo decorre da ideia da navalha de Occam (às vezes chamada de “princípio da parcimônia”) que diz que a explicação mais simples é provavelmente a correta.

Aplicado às estatísticas, um modelo que possui poucos parâmetros, mas atinge um nível de ajuste satisfatório, deve ser preferido a um modelo que possui muitos parâmetros e atinge apenas um nível de ajuste ligeiramente superior.

Recursos adicionais

Os tutoriais a seguir explicam como executar outras tarefas comuns no SAS:

Como realizar regressão linear simples no SAS
Como realizar regressão linear múltipla no SAS
Como realizar regressão polinomial no SAS
Como realizar regressão logística no SAS

Add a Comment

O seu endereço de email não será publicado. Campos obrigatórios marcados com *