O que é considerado “forte”; correlação?
Nas estatísticas, muitas vezes procuramos compreender como duas variáveis se relacionam entre si. Por exemplo, podemos querer saber:
- Qual é a relação entre o número de horas que um aluno estuda e a nota que recebe no exame?
- Qual é a relação entre a temperatura externa e a quantidade de casquinhas de sorvete vendidas por um food truck?
- Qual é a relação entre o investimento em marketing e a receita total obtida por um determinado negócio?
Em cada um desses cenários, tentamos compreender a relação entre duas variáveis diferentes.
Nas estatísticas, uma das formas mais comuns de quantificar uma relação entre duas variáveis é utilizar o coeficiente de correlação de Pearson , que é uma medida da associação linear entre duas variáveis . Tem um valor entre -1 e 1 onde:
- -1 indica uma correlação linear perfeitamente negativa entre duas variáveis
- 0 indica nenhuma correlação linear entre duas variáveis
- 1 indica uma correlação linear perfeitamente positiva entre duas variáveis
Freqüentemente denotado por r , esse número nos ajuda a compreender a força de um relacionamento entre duas variáveis. Quanto mais longe r estiver de zero, mais forte será a relação entre as duas variáveis .
É importante notar que duas variáveis podem ter uma forte correlação positiva ou uma forte correlação negativa .
Correlação positiva forte: Quando o valor de uma variável aumenta, o valor da outra variável aumenta da mesma forma. Por exemplo, quanto mais horas um aluno passa estudando, maior tende a ser sua nota no exame. As horas estudadas e as notas dos exames têm uma forte correlação positiva.
Correlação negativa forte: quando o valor de uma variável aumenta, o valor da outra variável tende a diminuir. Por exemplo, quanto mais velha uma galinha fica, menos ovos ela tende a produzir. A idade da galinha e a produção de ovos têm uma forte correlação negativa.
A tabela a seguir mostra a regra prática para interpretar a força do relacionamento entre duas variáveis com base no valor de r :
Valor absoluto de r | Força do relacionamento |
---|---|
r < 0,25 | Sem relacionamento |
0,25 < r < 0,5 | Relacionamento fraco |
0,5 < r < 0,75 | Relacionamentos moderados |
r > 0,75 | Relacionamentos fortes |
A correlação entre duas variáveis é considerada forte se o valor absoluto de r for superior a 0,75 . No entanto, a definição de uma correlação “forte” pode variar de um campo para outro.
Médico
Por exemplo, nas áreas médicas, a definição de um relacionamento “forte” é muitas vezes muito mais baixa. Se a relação entre tomar um determinado medicamento e reduzir ataques cardíacos for r = 0,3, esta pode ser considerada uma relação “fracamente positiva” em outras áreas, mas na medicina é suficientemente significativa para que valha a pena tomar o medicamento para reduzir as chances de tendo um ataque cardíaco.
Recursos Humanos
Noutra área, como os recursos humanos, correlações mais baixas também poderiam ser utilizadas com mais frequência. Por exemplo, foi demonstrado que a correlação entre notas universitárias e desempenho no trabalho é de aproximadamente r = 0,16 . Isso é muito baixo, mas é importante o suficiente para que uma empresa pelo menos considere isso durante um processo de entrevista.
Tecnologia
E num campo como a tecnologia, a correlação entre as variáveis pode precisar de ser muito maior em alguns casos para ser considerada “forte”. Por exemplo, se uma empresa cria um carro autônomo e a correlação entre as decisões de conversão do carro e a probabilidade de sofrer um acidente é r = 0,95 , este valor é provavelmente muito baixo para que o carro seja considerado seguro, uma vez que o resultado de fazer um carro autônomo é r = 0,95. uma má decisão pode ser fatal.
Ver correlações
Não importa em que área você trabalhe, é útil criar um gráfico de dispersão das duas variáveis que você está estudando para que possa pelo menos examinar visualmente a relação entre elas.
Por exemplo, suponha que temos o seguinte conjunto de dados que mostra a altura e o peso de 12 indivíduos:
É um pouco difícil entender a relação entre essas duas variáveis apenas olhando os dados brutos. No entanto, é muito mais fácil entender a relação se criarmos um gráfico de dispersão com altura no eixo x e peso no eixo y:
Existe claramente uma relação positiva entre as duas variáveis.
Criar uma nuvem de pontos é uma boa ideia por dois outros motivos:
(1) Um gráfico de dispersão permite identificar valores discrepantes que impactam a correlação.
Um valor discrepante extremo pode alterar significativamente o coeficiente de correlação de Pearson. Considere o exemplo abaixo, em que as variáveis X e Y possuem um coeficiente de correlação de Pearson de r = 0,00 .
Mas agora imagine que temos um valor discrepante no conjunto de dados:
Esse valor discrepante faz com que a correlação seja r = 0,878 . Este único ponto de dados altera completamente a correlação e faz parecer que existe uma forte relação entre as variáveis X e Y , quando na verdade não existe.
(2) Um gráfico de dispersão pode ajudá-lo a identificar relações não lineares entre variáveis.
Um coeficiente de correlação de Pearson simplesmente nos diz se duas variáveis estão linearmente relacionadas. Mas mesmo que um coeficiente de correlação de Pearson nos diga que duas variáveis não estão correlacionadas, ainda poderão ter algum tipo de relação não linear. Esta é outra razão pela qual é útil criar um gráfico de dispersão.
Por exemplo, considere o gráfico de dispersão abaixo entre as variáveis X e Y , em que sua correlação é r = 0,00 .
As variáveis claramente não têm uma relação linear, mas têm uma relação não linear: os valores de y são simplesmente os valores de x ao quadrado. Um coeficiente de correlação por si só não poderia detectar esta relação, mas um gráfico de dispersão poderia.
Conclusão
Resumindo:
- Geralmente, uma correlação superior a 0,75 é considerada uma correlação “forte” entre duas variáveis.
- No entanto, esta regra pode variar de área para área. Por exemplo, uma correlação muito mais fraca pode ser considerada forte numa área médica em comparação com uma área tecnológica. É melhor usar conhecimentos específicos do domínio para decidir o que é considerado forte.
- Ao usar a correlação para descrever o relacionamento entre duas variáveis, é útil também criar um gráfico de dispersão para que você possa identificar valores discrepantes no conjunto de dados, bem como um possível relacionamento não linear.
Recursos adicionais
O que é considerado uma correlação “fraca”?
Calculadora de Matriz de Correlação
Como ler uma matriz de correlação