Como calcular a correlação ponto-bisserial em python
A correlação ponto-bisserial é usada para medir a relação entre uma variável binária, x, e uma variável contínua, y.
Semelhante ao coeficiente de correlação de Pearson , o coeficiente de correlação ponto-bisserial assume um valor entre -1 e 1 onde:
- -1 indica uma correlação perfeitamente negativa entre duas variáveis
- 0 indica nenhuma correlação entre duas variáveis
- 1 indica uma correlação perfeitamente positiva entre duas variáveis
Este tutorial explica como calcular a correlação ponto-bisserial entre duas variáveis em Python.
Exemplo: correlação ponto-bisserial em Python
Suponha que temos uma variável binária, x, e uma variável contínua, y:
x = [0, 1, 1, 0, 0, 0, 1, 0, 1, 1, 0] y = [12, 14, 17, 17, 11, 22, 23, 11, 19, 8, 12]
Podemos usar a função pointbiserialr() da biblioteca scipy.stats para calcular a correlação ponto-bisserial entre as duas variáveis.
Observe que esta função retorna um coeficiente de correlação junto com um valor p correspondente:
import scipy.stats as stats #calculate point-biserial correlation stats. pointbiserialr (x,y) PointbiserialrResult(correlation=0.21816, pvalue=0.51928)
O coeficiente de correlação ponto-bisserial é 0,21816 e o valor p correspondente é 0,51928 .
Como o coeficiente de correlação é positivo, isso indica que quando a variável x assume o valor “1”, a variável y tende a assumir valores mais elevados do que quando a variável x assume o valor “0”.
Como o valor p desta correlação não é inferior a 0,05, esta correlação não é estatisticamente significativa.
Você pode encontrar os detalhes exatos de como essa correlação é calculada na documentação do scipy.stats.