Come calcolare la correlazione punto-biseriale in python


La correlazione punto-biseriale viene utilizzata per misurare la relazione tra una variabile binaria, x, e una variabile continua, y.

Similmente al coefficiente di correlazione di Pearson , il coefficiente di correlazione punto-biseriale assume un valore compreso tra -1 e 1 dove:

  • -1 indica una correlazione perfettamente negativa tra due variabili
  • 0 indica alcuna correlazione tra due variabili
  • 1 indica una correlazione perfettamente positiva tra due variabili

Questo tutorial spiega come calcolare la correlazione punto-biseriale tra due variabili in Python.

Esempio: correlazione punto-biseriale in Python

Supponiamo di avere una variabile binaria, x, e una variabile continua, y:

 x = [0, 1, 1, 0, 0, 0, 1, 0, 1, 1, 0]
y = [12, 14, 17, 17, 11, 22, 23, 11, 19, 8, 12]

Possiamo utilizzare la funzione pointbiserialr() dalla libreria scipy.stats per calcolare la correlazione punto-biseriale tra le due variabili.

Si noti che questa funzione restituisce un coefficiente di correlazione insieme al corrispondente valore p:

 import scipy.stats as stats

#calculate point-biserial correlation
stats. pointbiserialr (x,y)

PointbiserialrResult(correlation=0.21816, pvalue=0.51928)

Il coefficiente di correlazione punto-biseriale è 0,21816 e il corrispondente valore p è 0,51928 .

Poiché il coefficiente di correlazione è positivo, ciò indica che quando la variabile x assume il valore “1”, la variabile y tende ad assumere valori più elevati rispetto a quando la variabile x assume il valore “0”.

Poiché il valore p di questa correlazione non è inferiore a 0,05, questa correlazione non è statisticamente significativa.

Puoi trovare i dettagli esatti su come viene calcolata questa correlazione nella documentazione di scipy.stats.

Aggiungi un commento

Il tuo indirizzo email non sarà pubblicato. I campi obbligatori sono contrassegnati *