Como calcular a correlação no sas (com exemplos)


Uma forma de quantificar a relação entre duas variáveis é utilizar o coeficiente de correlação de Pearson , que mede a associação linear entre duas variáveis .

Sempre assume um valor entre -1 e 1 onde:

  • -1 indica uma correlação linear perfeitamente negativa entre duas variáveis
  • 0 indica nenhuma correlação linear entre duas variáveis
  • 1 indica uma correlação linear perfeitamente positiva entre duas variáveis

Quanto mais longe o coeficiente de correlação estiver de zero, mais forte será a relação entre as duas variáveis.

Os exemplos a seguir mostram como usar proc corr no SAS para calcular o coeficiente de correlação entre variáveis no conjunto de dados integrado do SAS chamado Fish , que contém várias medições para 159 peixes diferentes capturados em um lago na Finlândia.

Podemos usar proc print para exibir as primeiras 10 observações deste conjunto de dados:

 /*view first 10 observations from Fish dataset*/
proc print data =sashelp.Fish( obs = 10 );

run ;

Exemplo 1: Correlação entre duas variáveis

Podemos usar o seguinte código para calcular o coeficiente de correlação de Pearson entre as variáveis Altura e Largura:

 /*calculate correlation coefficient between Height and Width*/
proc corr data =sashelp.fish;
	var HeightWidth;

run ;

A primeira tabela exibe estatísticas resumidas de altura e largura.

A segunda tabela mostra o coeficiente de correlação de Pearson entre as duas variáveis, incluindo um valor p que nos diz se a correlação é estatisticamente significativa.

Pelo resultado podemos ver:

  • Coeficiente de correlação de Pearson: 0,79288
  • Valor P: <0,0001

Isto diz-nos que existe uma forte correlação positiva entre altura e largura e que a correlação é estatisticamente significativa, uma vez que o valor p é inferior a α = 0,05.

Relacionado: O que é considerado uma correlação “forte”?

Exemplo 2: Correlação entre todas as variáveis

Podemos usar o seguinte código para calcular o coeficiente de correlação de Pearson entre todas as combinações pares de variáveis no conjunto de dados:

 /*calculate correlation coefficient between all pairwise combinations of variables*/
proc corr data =sashelp.fish;

run;

matriz de correlação no SAS

O resultado exibe uma matriz de correlação , que contém o coeficiente de correlação de Pearson e os valores p correspondentes para cada combinação de pares de variáveis numéricas no conjunto de dados.

Por exemplo:

  • O coeficiente de correlação de Pearson entre peso e comprimento1 é 0,91644.
  • O coeficiente de correlação de Pearson entre peso e comprimento2 é 0,91937.
  • O coeficiente de correlação de Pearson entre peso e comprimento3 é 0,92447.

E assim por diante.

Exemplo 3: Visualize a correlação com um gráfico de dispersão

Também podemos usar a função plots para criar um gráfico de dispersão para visualizar a correlação entre duas variáveis:

 /*visualize correlation between Height and Width*/
proc corr data =sashelp.fish plots =scatter( nvar =all);;
	var HeightWidth;

run; 

No gráfico podemos ver a forte correlação positiva entre altura e largura. À medida que a altura aumenta, a largura também tende a aumentar.

No canto superior esquerdo do gráfico podemos ver também o total de observações utilizadas, o coeficiente de correlação e o valor p do coeficiente de correlação.

Recursos adicionais

Os tutoriais a seguir explicam como realizar outras operações comuns no SAS:

Como criar tabelas de frequência no SAS
Como calcular estatísticas descritivas no SAS

Add a Comment

O seu endereço de email não será publicado. Campos obrigatórios marcados com *