Como calcular a correlação no sas (com exemplos)
Uma forma de quantificar a relação entre duas variáveis é utilizar o coeficiente de correlação de Pearson , que mede a associação linear entre duas variáveis .
Sempre assume um valor entre -1 e 1 onde:
- -1 indica uma correlação linear perfeitamente negativa entre duas variáveis
- 0 indica nenhuma correlação linear entre duas variáveis
- 1 indica uma correlação linear perfeitamente positiva entre duas variáveis
Quanto mais longe o coeficiente de correlação estiver de zero, mais forte será a relação entre as duas variáveis.
Os exemplos a seguir mostram como usar proc corr no SAS para calcular o coeficiente de correlação entre variáveis no conjunto de dados integrado do SAS chamado Fish , que contém várias medições para 159 peixes diferentes capturados em um lago na Finlândia.
Podemos usar proc print para exibir as primeiras 10 observações deste conjunto de dados:
/*view first 10 observations from Fish dataset*/ proc print data =sashelp.Fish( obs = 10 ); run ;
Exemplo 1: Correlação entre duas variáveis
Podemos usar o seguinte código para calcular o coeficiente de correlação de Pearson entre as variáveis Altura e Largura:
/*calculate correlation coefficient between Height and Width*/ proc corr data =sashelp.fish; var HeightWidth; run ;
A primeira tabela exibe estatísticas resumidas de altura e largura.
A segunda tabela mostra o coeficiente de correlação de Pearson entre as duas variáveis, incluindo um valor p que nos diz se a correlação é estatisticamente significativa.
Pelo resultado podemos ver:
- Coeficiente de correlação de Pearson: 0,79288
- Valor P: <0,0001
Isto diz-nos que existe uma forte correlação positiva entre altura e largura e que a correlação é estatisticamente significativa, uma vez que o valor p é inferior a α = 0,05.
Relacionado: O que é considerado uma correlação “forte”?
Exemplo 2: Correlação entre todas as variáveis
Podemos usar o seguinte código para calcular o coeficiente de correlação de Pearson entre todas as combinações pares de variáveis no conjunto de dados:
/*calculate correlation coefficient between all pairwise combinations of variables*/ proc corr data =sashelp.fish; run;
O resultado exibe uma matriz de correlação , que contém o coeficiente de correlação de Pearson e os valores p correspondentes para cada combinação de pares de variáveis numéricas no conjunto de dados.
Por exemplo:
- O coeficiente de correlação de Pearson entre peso e comprimento1 é 0,91644.
- O coeficiente de correlação de Pearson entre peso e comprimento2 é 0,91937.
- O coeficiente de correlação de Pearson entre peso e comprimento3 é 0,92447.
E assim por diante.
Exemplo 3: Visualize a correlação com um gráfico de dispersão
Também podemos usar a função plots para criar um gráfico de dispersão para visualizar a correlação entre duas variáveis:
/*visualize correlation between Height and Width*/ proc corr data =sashelp.fish plots =scatter( nvar =all);; var HeightWidth; run;
No gráfico podemos ver a forte correlação positiva entre altura e largura. À medida que a altura aumenta, a largura também tende a aumentar.
No canto superior esquerdo do gráfico podemos ver também o total de observações utilizadas, o coeficiente de correlação e o valor p do coeficiente de correlação.
Recursos adicionais
Os tutoriais a seguir explicam como realizar outras operações comuns no SAS:
Como criar tabelas de frequência no SAS
Como calcular estatísticas descritivas no SAS