Como criar uma matriz de correlação em sas (com exemplo)
Uma matriz de correlação é uma tabela quadrada que mostra os coeficientes de correlação entre variáveis em um conjunto de dados.
Ele fornece uma maneira rápida de compreender a força dos relacionamentos lineares que existem entre variáveis em um conjunto de dados.
Você pode usar a instrução PROC CORR no SAS para criar uma matriz de correlação para um determinado conjunto de dados:
/*create correlation matrix using all numeric variables in my_data*/
proc corr data =my_data;
run ;
Por padrão, isso criará uma matriz que exibe os coeficientes de correlação entre todas as variáveis numéricas no conjunto de dados.
Para incluir apenas variáveis específicas na matriz de correlação, você pode usar a instrução VAR :
/*create correlation matrix using only var1, var2 and var3 in my_data*/
proc corr data =my_data;
var var1, var2, var3;
run ;
O exemplo a seguir mostra como criar uma matriz de correlação no SAS.
Exemplo: Criando uma Matriz de Correlação no SAS
Suponha que temos o seguinte conjunto de dados no SAS que contém informações sobre vários jogadores de basquete:
/*create dataset*/
data my_data;
input team $ assists rebounds points;
datalines ;
A 4 12 22
A 5 14 24
A 5 13 26
A 6 7 26
B 7 8 29
B 8 8 32
B 8 9 20
B 10 13 14
;
run ;
/*view dataset*/
proc print data =my_data;
Podemos usar a instrução PROC CORR para criar uma matriz de correlação que inclua todas as variáveis numéricas no conjunto de dados por padrão:
/*create correlation matrix using all numeric variables in my_data*/
proc corr data =my_data;
run ;
A saída exibe estatísticas resumidas das variáveis numéricas na primeira tabela juntamente com uma matriz de correlação.
Observe que a variável “equipe” não foi incluída na matriz de correlação por não ser uma variável numérica.
Veja como interpretar os valores da matriz de correlação:
(1) O coeficiente de correlação de Pearson (r) entre assistências e rebotes é -0,24486 . O valor p correspondente é 0,5589 .
Como r é menor que zero, isso nos diz que existe uma associação linear negativa entre essas duas variáveis. No entanto, o valor p não é inferior a 0,05, pelo que esta correlação não é estatisticamente significativa.
(2) O coeficiente de correlação de Pearson (r) entre assistências e pontos é -0,32957 . O valor p correspondente é 0,4253 .
Existe uma associação linear negativa entre estas duas variáveis, mas não é estatisticamente significativa.
(3) O coeficiente de correlação de Pearson (r) entre rebotes e pontos é -0,52209 . O valor p correspondente é 0,1844 .
Existe uma associação linear negativa entre estas duas variáveis, mas não é estatisticamente significativa.
Observe que também poderíamos usar a instrução VAR para incluir apenas variáveis numéricas específicas na matriz de correlação:
/*create correlation matrix using only assists and rebounds variables*/
proc corr data =my_data;
var assists rebounds;
run ;
Observe que apenas as variáveis de assistências e rebotes foram incluídas nesta matriz de correlação.
Recursos adicionais
Os tutoriais a seguir explicam como executar outras tarefas comuns no SAS:
Como criar uma matriz de gráfico de dispersão no SAS
Como criar tabelas dinâmicas no SAS
Como calcular o fator de inflação de variância (VIF) no SAS