Como ler uma matriz de correlação


Nas estatísticas, muitas vezes procuramos compreender a relação entre duas variáveis.

Por exemplo, podemos querer compreender a relação entre o número de horas que um aluno estuda e a nota que recebe no exame.

Uma forma de quantificar esta relação é utilizar o coeficiente de correlação de Pearson , que é uma medida da associação linear entre duas variáveis . Tem um valor entre -1 e 1 onde:

  • -1 indica uma correlação linear perfeitamente negativa entre duas variáveis
  • 0 indica nenhuma correlação linear entre duas variáveis
  • 1 indica uma correlação linear perfeitamente positiva entre duas variáveis

Quanto mais longe o coeficiente de correlação estiver de zero, mais forte será a relação entre as duas variáveis.

Relacionado: O que é considerado uma correlação “forte”?

Mas, em alguns casos, queremos compreender a correlação entre múltiplos pares de variáveis. Nestes casos, podemos criar uma matriz de correlação , que é uma tabela quadrada que mostra os coeficientes de correlação entre diversas variáveis.

Exemplo de matriz de correlação

A matriz de correlação abaixo apresenta os coeficientes de correlação entre diversas variáveis relacionadas à educação:

Exemplo de matriz de correlação

Cada célula da tabela mostra a correlação entre duas variáveis específicas. Por exemplo, a célula destacada abaixo mostra que a correlação entre “horas gastas estudando” e “nota no exame” é de 0,82 , indicando que elas estão fortemente correlacionadas positivamente. Mais horas gastas estudando estão intimamente ligadas a pontuações mais altas nos exames.

Exemplo de leitura de uma matriz de correlação

E a célula destacada abaixo mostra que a correlação entre “horas gastas estudando” e “horas gastas dormindo” é -0,22 , indicando que elas estão fracamente correlacionadas negativamente. Mais horas gastas estudando estão associadas a menos horas gastas dormindo.

Exemplo de correlação negativa em uma matriz de correlação

E a célula destacada abaixo mostra que a correlação entre “horas passadas dormindo” e “pontuação de QI” é de 0,06 , indicando que elas são basicamente não correlacionadas. Há muito pouca associação entre o número de horas que um aluno dorme e a sua pontuação de QI.

Exemplo de matriz de correlação sem correlação

Observe também que os coeficientes de correlação ao longo da diagonal da tabela são todos iguais a 1 porque cada variável está perfeitamente correlacionada consigo mesma. Essas células não são úteis para interpretação.

Exemplo de células diagonais em uma matriz de correlação

Variações da matriz de correlação

Observe que uma matriz de correlação é perfeitamente simétrica. Por exemplo, a célula superior direita mostra exatamente o mesmo valor que a célula inferior esquerda:

Exemplo de matriz de correlação simétrica

Na verdade, as duas células medem a correlação entre “horas de estudo” e “nota escolar”.

Como uma matriz de correlação é simétrica, metade dos coeficientes de correlação exibidos na matriz são redundantes e desnecessários. Então, às vezes, apenas metade da matriz de correlação será exibida:

Metade de uma matriz de correlação

E às vezes uma matriz de correlação será colorida como um mapa de calor para tornar os coeficientes de correlação ainda mais fáceis de ler:

Exemplo de matriz de correlação de mapa de calor

Quando usar uma matriz de correlação

Na prática, uma matriz de correlação é comumente usada por três motivos:

1. Uma matriz de correlação resume convenientemente um conjunto de dados.

Uma matriz de correlação é uma maneira simples de resumir as correlações entre todas as variáveis em um conjunto de dados. Por exemplo, suponha que temos o seguinte conjunto de dados contendo as seguintes informações para 1.000 alunos:

Exemplo de conjunto de dados brutos para matriz de correlação

Seria muito difícil compreender a relação entre cada variável apenas olhando os dados brutos. Felizmente, uma matriz de correlação pode nos ajudar a compreender rapidamente as correlações entre cada par de variáveis.

2. Uma matriz de correlação serve como diagnóstico para a regressão.

Uma das principais suposições da regressão linear múltipla é que nenhuma variável independente no modelo está fortemente correlacionada com qualquer outra variável no modelo.

Quando duas variáveis independentes são altamente correlacionadas, isso resulta em um problema denominado multicolinearidade e pode dificultar a interpretação dos resultados da regressão.

Uma das maneiras mais simples de detectar um possível problema de multicolinearidade é observar uma matriz de correlação e verificar visualmente se alguma das variáveis está altamente correlacionada entre si.

3. Uma matriz de correlação pode ser usada como entrada para outras análises.

Uma matriz de correlação é usada como entrada para outras análises complexas, como análise fatorial exploratória e modelos de equações estruturais.

Recursos adicionais

Os tutoriais a seguir explicam como criar uma matriz de correlação usando vários softwares estatísticos:

Como criar uma matriz de correlação no Excel
Como criar uma matriz de correlação no SPSS
Como criar uma matriz de correlação no Stata
Como criar uma matriz de correlação em Python

Add a Comment

O seu endereço de email não será publicado. Campos obrigatórios marcados com *