Come creare una matrice di correlazione in sas (con esempio)
Una matrice di correlazione è una tabella quadrata che mostra i coefficienti di correlazione tra le variabili in un set di dati.
Fornisce un modo rapido per comprendere la forza delle relazioni lineari esistenti tra le variabili in un set di dati.
È possibile utilizzare l’istruzione PROC CORR in SAS per creare una matrice di correlazione per un determinato set di dati:
/*create correlation matrix using all numeric variables in my_data*/
proc corr data =my_data;
run ;
Per impostazione predefinita, verrà creata una matrice che visualizza i coefficienti di correlazione tra tutte le variabili numeriche nel set di dati.
Per includere solo variabili specifiche nella matrice di correlazione, è possibile utilizzare l’istruzione VAR :
/*create correlation matrix using only var1, var2 and var3 in my_data*/
proc corr data =my_data;
var var1, var2, var3;
run ;
L’esempio seguente mostra come creare una matrice di correlazione in SAS.
Esempio: creazione di una matrice di correlazione in SAS
Supponiamo di avere il seguente set di dati in SAS che contiene informazioni su vari giocatori di basket:
/*create dataset*/
data my_data;
input team $ assists rebounds points;
datalines ;
A 4 12 22
A 5 14 24
A 5 13 26
A 6 7 26
B 7 8 29
B 8 8 32
B 8 9 20
B 10 13 14
;
run ;
/*view dataset*/
proc print data =my_data;
Possiamo utilizzare l’istruzione PROC CORR per creare una matrice di correlazione che includa ogni variabile numerica nel set di dati per impostazione predefinita:
/*create correlation matrix using all numeric variables in my_data*/
proc corr data =my_data;
run ;
L’output visualizza le statistiche riassuntive delle variabili numeriche nella prima tabella insieme a una matrice di correlazione.
Si noti che la variabile “squadra” non è stata inclusa nella matrice di correlazione perché non era una variabile numerica.
Ecco come interpretare i valori della matrice di correlazione:
(1) Il coefficiente di correlazione di Pearson (r) tra assist e rimbalzi è -0,24486 . Il valore p corrispondente è 0,5589 .
Poiché r è minore di zero, ciò ci dice che esiste un’associazione lineare negativa tra queste due variabili. Tuttavia, il valore p non è inferiore a 0,05, quindi questa correlazione non è statisticamente significativa.
(2) Il coefficiente di correlazione di Pearson (r) tra assist e punti è -0,32957 . Il valore p corrispondente è 0,4253 .
Esiste un’associazione lineare negativa tra queste due variabili ma non è statisticamente significativa.
(3) Il coefficiente di correlazione di Pearson (r) tra rimbalzi e punti è -0,52209 . Il valore p corrispondente è 0,1844 .
Esiste un’associazione lineare negativa tra queste due variabili ma non è statisticamente significativa.
Si noti che potremmo anche utilizzare l’istruzione VAR per includere solo variabili numeriche specifiche nella matrice di correlazione:
/*create correlation matrix using only assists and rebounds variables*/
proc corr data =my_data;
var assists rebounds;
run ;
Si noti che solo le variabili assist e rimbalzi sono state incluse in questa matrice di correlazione.
Risorse addizionali
I seguenti tutorial spiegano come eseguire altre attività comuni in SAS:
Come creare una matrice di grafico a dispersione in SAS
Come creare tabelle pivot in SAS
Come calcolare il fattore di inflazione della varianza (VIF) in SAS