Come calcolare la distanza di cottura in sas
La distanza di Cook viene utilizzata per identificare le osservazioni influenti in un modello di regressione.
La formula per la distanza di Cook è:
d i = (r i 2 / p*MSE) * (h ii / (1-h ii ) 2 )
Oro:
- r i è l’i- esimo residuo
- p è il numero di coefficienti nel modello di regressione
- MSE è l’errore quadratico medio
- h ii è l’ iesimo valore della leva finanziaria
In sostanza, la distanza di Cook misura quanto cambiano tutti i valori adattati del modello quando viene rimossa l’i- esima osservazione.
Maggiore è il valore della distanza di Cook, più influente è una data osservazione.
In generale, si ritiene che qualsiasi osservazione con una distanza di Cook maggiore di 4/n (dove n = osservazioni totali) abbia una grande influenza.
L’esempio seguente mostra come calcolare la distanza di Cook per ciascuna osservazione in un modello di regressione in SAS.
Esempio: calcolo della distanza del cuoco in SAS
Supponiamo di avere il seguente set di dati in SAS:
/*create dataset*/
data my_data;
input xy;
datalines ;
8 41
12 42
12 39
13 37
14 35
16 39
17 45
22 46
24 39
26 49
29 55
30 57
;
run ;
/*view dataset*/
proc print data =my_data;
Possiamo utilizzare PROC REG per adattare un semplice modello di regressione lineare a questo set di dati, quindi utilizzare l’istruzione OUTPUT con l’istruzione COOKD per calcolare la distanza di Cook per ciascuna osservazione nel modello di regressione:
/*fit simple linear regression model and calculate Cook's distance for each obs*/
proc reg data =my_data;
model y=x;
output out=cooksData cookd =cookd;
run ;
/*print Cook's distance values for each observation*/
proc print data =cooksData;
La tabella dei risultati finali mostra il set di dati originale insieme alla distanza di Cook per ciascuna osservazione:
Ad esempio, possiamo vedere:
- La distanza di Cook per la prima osservazione è 0,36813 .
- La distanza di Cook per la seconda osservazione è 0,06075 .
- La distanza di Cook per la terza osservazione è 0,00052 .
E così via.
La procedura PROC REG produce inoltre diversi grafici diagnostici nell’output e il grafico della distanza di Cook può essere visualizzato in questo output:
L’asse x mostra il numero di osservazione e l’asse y mostra la distanza di Cook per ciascuna osservazione.
Si noti che una linea di demarcazione è posizionata su 4/n (in questo caso n = 12, quindi la linea di demarcazione è a 0,33) e possiamo vedere che tre osservazioni nel set di dati sono maggiori di questa linea.
Ciò indica che queste osservazioni potrebbero avere una grande influenza sul modello di regressione e dovrebbero forse essere esaminate più da vicino prima di interpretare i risultati del modello.
Risorse addizionali
I seguenti tutorial spiegano come eseguire altre attività comuni in SAS:
Come creare un grafico residuo in SAS
Come creare istogrammi in SAS
Come creare nuvole di punti in SAS
Come identificare i valori anomali in SAS