Come eseguire la regressione graduale in sas (con esempio)
La regressione graduale è una procedura che possiamo utilizzare per costruire un modello di regressione da un insieme di variabili predittive inserendo e rimuovendo i predittori in modo graduale nel modello fino a quando non esiste più un motivo statisticamente valido per inserire o eliminane altri.
L’obiettivo della regressione graduale è creare un modello di regressione che includa tutte le variabili predittive correlate in modo statisticamente significativo alla variabile di risposta .
Per eseguire la regressione graduale in SAS, è possibile utilizzare PROC REG con l’istruzione SELECTION .
L’esempio seguente mostra come eseguire nella pratica la regressione graduale in SAS.
Esempio: esecuzione di una regressione passo passo in SAS
Supponiamo di avere il seguente set di dati in SAS che contiene quattro variabili predittive (x1, x2, x3, x4) e una variabile di risposta (y):
/*create dataset*/ data my_data; input x1 x2 x3 x4 y; datalines ; 1 4 10 13 78 2 4 12 14 81 5 3 7 10 75 8 2 13 9 97 10 5 12 5 95 14 7 8 6 90 17 8 10 6 86 19 5 15 5 90 20 5 12 4 93 21 4 10 3 95 ; run ; /*view dataset*/ proc print data =my_data;
Supponiamo ora di voler determinare quale combinazione di variabili predittive produrrà il miglior modello di regressione lineare multipla .
Quando parliamo di modello di regressione “migliore”, intendiamo il modello che massimizza o minimizza determinate misure.
Esistono due parametri che utilizziamo comunemente per valutare quale modello di regressione è il migliore tra un gruppo di potenziali modelli:
1. R quadrato aggiustato : il valore R quadrato aggiustato ci dice l’utilità di un modello, aggiustato in base al numero di predittori in un modello. Il modello con il valore R quadrato corretto più alto è considerato il migliore.
2. AIC : L’ Akaike Information Criterion (AIC) è una metrica utilizzata per confrontare l’adattamento di diversi modelli di regressione. Il modello con il valore AIC più basso è considerato il migliore.
Fortunatamente, possiamo calcolare sia i valori R-quadrato adattati che quelli AIC per i modelli di regressione in SAS utilizzando PROC REG con l’istruzione SELECTION .
Il codice seguente mostra come eseguire questa operazione:
/*perform stepwise multiple linear regression*/ proc reg data =my_data outest =est; model y=x1 x2 x3 x4 / selection=adjrsq aic ; output out =out p=pr=r; run ; quit ;
L’output mostra i valori R quadrato e AIC adattati per ogni possibile modello di regressione lineare multipla.
Dal risultato, possiamo vedere che il valore con il valore R quadrato corretto più alto e il valore AIC più basso è il modello di regressione che utilizza solo x3 e x4 come variabili predittive.
Pertanto dichiariamo che il seguente modello è “il migliore” tra tutti i modelli possibili:
y = b0 + b1 (x3) + b2 (x4)
Questo particolare modello di regressione ha le seguenti metriche:
- Valore R quadrato corretto: 0,5923
- AIC: 34.2921
Note sulla scelta del modello di regressione “migliore”.
Si noti che a volte il modello con il valore R quadrato corretto più alto non sempre ha anche il valore AIC più basso.
Quando si tratta di decidere quale modello di regressione è il migliore, l’R quadrato corretto e l’AIC servono come suggerimenti, ma nel mondo reale potrebbe essere necessario utilizzare competenze di dominio per determinare quale modello è il migliore.
Potrebbe anche essere saggio scegliere un modello parsimonioso , ovvero un modello che raggiunga il livello di adattamento desiderato utilizzando il minor numero possibile di variabili predittive.
Il ragionamento alla base di questo tipo di modello nasce dall’idea del rasoio di Occam (a volte chiamato “principio di parsimonia”) secondo il quale la spiegazione più semplice è probabilmente quella corretta.
Applicato alla statistica, un modello che ha pochi parametri ma raggiunge un livello di adattamento soddisfacente dovrebbe essere preferito rispetto a un modello che ha moltissimi parametri e raggiunge solo un livello di adattamento leggermente superiore.
Risorse addizionali
I seguenti tutorial spiegano come eseguire altre attività comuni in SAS:
Come eseguire una regressione lineare semplice in SAS
Come eseguire la regressione lineare multipla in SAS
Come eseguire la regressione polinomiale in SAS
Come eseguire la regressione logistica in SAS