Come calcolare la correlazione punto-biseriale in python
La correlazione punto-biseriale viene utilizzata per misurare la relazione tra una variabile binaria, x, e una variabile continua, y.
Similmente al coefficiente di correlazione di Pearson , il coefficiente di correlazione punto-biseriale assume un valore compreso tra -1 e 1 dove:
- -1 indica una correlazione perfettamente negativa tra due variabili
- 0 indica alcuna correlazione tra due variabili
- 1 indica una correlazione perfettamente positiva tra due variabili
Questo tutorial spiega come calcolare la correlazione punto-biseriale tra due variabili in Python.
Esempio: correlazione punto-biseriale in Python
Supponiamo di avere una variabile binaria, x, e una variabile continua, y:
x = [0, 1, 1, 0, 0, 0, 1, 0, 1, 1, 0] y = [12, 14, 17, 17, 11, 22, 23, 11, 19, 8, 12]
Possiamo utilizzare la funzione pointbiserialr() dalla libreria scipy.stats per calcolare la correlazione punto-biseriale tra le due variabili.
Si noti che questa funzione restituisce un coefficiente di correlazione insieme al corrispondente valore p:
import scipy.stats as stats #calculate point-biserial correlation stats. pointbiserialr (x,y) PointbiserialrResult(correlation=0.21816, pvalue=0.51928)
Il coefficiente di correlazione punto-biseriale è 0,21816 e il corrispondente valore p è 0,51928 .
Poiché il coefficiente di correlazione è positivo, ciò indica che quando la variabile x assume il valore “1”, la variabile y tende ad assumere valori più elevati rispetto a quando la variabile x assume il valore “0”.
Poiché il valore p di questa correlazione non è inferiore a 0,05, questa correlazione non è statisticamente significativa.
Puoi trovare i dettagli esatti su come viene calcolata questa correlazione nella documentazione di scipy.stats.