Como calcular a correlação ponto-bisserial em python


A correlação ponto-bisserial é usada para medir a relação entre uma variável binária, x, e uma variável contínua, y.

Semelhante ao coeficiente de correlação de Pearson , o coeficiente de correlação ponto-bisserial assume um valor entre -1 e 1 onde:

  • -1 indica uma correlação perfeitamente negativa entre duas variáveis
  • 0 indica nenhuma correlação entre duas variáveis
  • 1 indica uma correlação perfeitamente positiva entre duas variáveis

Este tutorial explica como calcular a correlação ponto-bisserial entre duas variáveis em Python.

Exemplo: correlação ponto-bisserial em Python

Suponha que temos uma variável binária, x, e uma variável contínua, y:

 x = [0, 1, 1, 0, 0, 0, 1, 0, 1, 1, 0]
y = [12, 14, 17, 17, 11, 22, 23, 11, 19, 8, 12]

Podemos usar a função pointbiserialr() da biblioteca scipy.stats para calcular a correlação ponto-bisserial entre as duas variáveis.

Observe que esta função retorna um coeficiente de correlação junto com um valor p correspondente:

 import scipy.stats as stats

#calculate point-biserial correlation
stats. pointbiserialr (x,y)

PointbiserialrResult(correlation=0.21816, pvalue=0.51928)

O coeficiente de correlação ponto-bisserial é 0,21816 e o valor p correspondente é 0,51928 .

Como o coeficiente de correlação é positivo, isso indica que quando a variável x assume o valor “1”, a variável y tende a assumir valores mais elevados do que quando a variável x assume o valor “0”.

Como o valor p desta correlação não é inferior a 0,05, esta correlação não é estatisticamente significativa.

Você pode encontrar os detalhes exatos de como essa correlação é calculada na documentação do scipy.stats.

Add a Comment

O seu endereço de email não será publicado. Campos obrigatórios marcados com *