Correlação

Este artigo explica o significado da correlação entre duas variáveis, como calcular o coeficiente de correlação e os diferentes tipos de correlações existentes. Adicionalmente, é mostrado como interpretar o valor da correlação entre duas variáveis.

O que é correlação?

Correlação é uma medida estatística que indica o grau de relacionamento entre duas variáveis. Mais especificamente, a correlação linear é usada para determinar o grau de correlação linear entre duas variáveis diferentes.

Duas variáveis são vinculadas quando a alteração dos valores de uma variável também altera os valores da outra variável. Por exemplo, se aumentar a variável A também aumenta a variável B, existe uma correlação entre as variáveis A e B.

Tipos de correlação

Dependendo da relação entre duas variáveis aleatórias, distinguem-se os seguintes tipos de correlação linear :

  • Correlação direta (ou correlação positiva) : uma variável aumenta quando a outra também aumenta.
  • Correlação inversa (ou correlação negativa) : quando uma variável aumenta, a outra diminui, e vice-versa, se uma variável diminui, a outra aumenta.
  • Correlação zero (sem correlação) : Não há relação entre as duas variáveis.

Tenha em mente que estes são os diferentes tipos de correlação linear que existem, mas também pode ser que a relação matemática entre duas variáveis não possa ser representada por uma linha reta, mas em vez disso precise usar uma função mais complexa, como uma parábola. ou um logaritmo. Neste caso, seria uma correlação não linear .

Coeficiente de correlação

Considerando a definição de correlação e os diferentes tipos de correlação existentes, vejamos como este valor estatístico é calculado.

O coeficiente de correlação , também chamado de coeficiente de correlação linear ou coeficiente de correlação de Pearson , é o valor da correlação entre duas variáveis.

O coeficiente de correlação de duas variáveis estatísticas é igual ao quociente entre a covariância das variáveis e a raiz quadrada do produto da variância de cada variável. Portanto, a fórmula para cálculo do coeficiente de correlação é a seguinte:

\rho_{XY}=\cfrac{Cov(X,Y)}{\sqrt{Var(X)\cdot Var(Y)}}

Ao calcular o coeficiente de correlação numa população, o símbolo de correlação é a letra grega ρ. Mas quando o coeficiente é calculado em relação a uma amostra, a letra r é geralmente usada como símbolo.

O valor do índice de correlação pode estar entre -1 e +1 inclusive. Veremos a seguir como o valor do coeficiente de correlação é interpretado.

Você pode ver um exemplo concreto de como o coeficiente de correlação é calculado no seguinte link:

Tenha em mente que existem outros tipos de coeficientes de correlação, como o coeficiente de correlação de Spearman ou de Kendall. Mas o mais comum é, sem dúvida, o coeficiente de correlação de Pearson.

Interpretando a correlação

O valor do coeficiente de correlação pode variar de -1 a +1 inclusive. Então, dependendo do valor do coeficiente de correlação, significa que a relação entre as duas variáveis é em uma direção ou outra. Veja como interpretar o valor da correlação :

  • r=-1 : as duas variáveis têm uma correlação negativa perfeita, portanto podemos traçar uma linha com inclinação negativa na qual todos os pontos se ligam.
  • -1<r<0 : a correlação entre as duas variáveis é negativa, portanto quando uma variável aumenta a outra diminui. Quanto mais próximo o valor estiver de -1, mais negativamente relacionadas serão as variáveis.
  • r=0 : a correlação entre as duas variáveis é muito fraca, na verdade, a relação linear entre elas é zero. Isso não significa que as variáveis sejam independentes, pois poderiam ter uma relação não linear.
  • 0<r<1 : a correlação entre as duas variáveis é positiva, quanto mais próximo o valor estiver de +1, mais forte será a relação entre as variáveis. Nesse caso, uma variável tende a aumentar seu valor quando a outra também aumenta.
  • r=1 : as duas variáveis possuem uma correlação positiva perfeita, ou seja, possuem uma relação linear positiva.
tipos de correlação

Como você pode ver nos gráficos de dispersão acima, quanto mais forte a correlação entre duas variáveis, mais próximos os pontos estarão no gráfico. Por outro lado, se os pontos estiverem muito distantes, isso significa que a correlação é fraca.

Tenha em mente que mesmo que exista uma correlação entre duas variáveis, isso não significa que haja causalidade entre elas, ou seja, a correlação entre duas variáveis não significa que a mudança em uma variável seja a causa da mudança na outra. variável.

Por exemplo, se descobrirmos que existe uma relação positiva entre a produção corporal de dois hormônios diferentes, isso não significa necessariamente que um aumento em um hormônio leva a um aumento no outro hormônio. Pode ser que o corpo produza ambos os hormônios porque precisa de ambos para combater uma doença e, portanto, aumenta os níveis de ambos simultaneamente, caso em que a causa seria a doença. Para determinar se existe uma relação causal entre os dois hormônios, um estudo mais detalhado deve ser realizado.

Correlação e regressão

Correlação e regressão são dois conceitos geralmente relacionados, pois ambos são utilizados para analisar a relação entre duas variáveis.

A correlação é uma medida estatística que quantifica a relação entre duas variáveis, porém, a regressão envolve a criação de uma equação (se for uma regressão linear será uma linha reta) que permite relacionar as duas variáveis.

Assim, a correlação simplesmente fornece um valor numérico para a relação entre variáveis, enquanto a regressão pode ser usada para tentar prever o valor de uma variável em relação à outra.

Geralmente, primeiro analisamos se as variáveis estão correlacionadas calculando o coeficiente de correlação. E se a correlação for significativa, executamos uma regressão do conjunto de dados.

É comum confundir o coeficiente de correlação com o valor da inclinação da reta obtida na regressão linear, porém não são equivalentes.

Matriz de correlação

A matriz de correlação é uma matriz que contém na posição i,j o coeficiente de correlação entre as variáveis i e j .

Portanto, a matriz de correlação é uma matriz quadrada preenchida com unidades na diagonal principal e o elemento da linha i e da coluna j consiste no valor do coeficiente de correlação entre a variável i e a variável j .

Assim, a fórmula da matriz de correlação é a seguinte:

matriz de correlação

Ouro

r_{ij}

é o coeficiente de correlação entre as variáveis

i

E

j.

A matriz de correlação é muito útil para resumir resultados e comparar a correlação entre múltiplas variáveis ao mesmo tempo, pois você pode ver rapidamente quais relações são fortes.

Add a Comment

O seu endereço de email não será publicado. Campos obrigatórios marcados com *