So berechnen sie die punkt-biserial-korrelation in python
Die punktbiserielle Korrelation wird verwendet, um die Beziehung zwischen einer binären Variablen x und einer kontinuierlichen Variablen y zu messen.
Ähnlich wie der Pearson-Korrelationskoeffizient nimmt der punktbiserielle Korrelationskoeffizient einen Wert zwischen -1 und 1 an, wobei:
- -1 zeigt eine vollkommen negative Korrelation zwischen zwei Variablen an
- 0 gibt an, dass zwischen zwei Variablen keine Korrelation besteht
- 1 zeigt eine vollkommen positive Korrelation zwischen zwei Variablen an
In diesem Tutorial wird erläutert, wie Sie die punktbiserielle Korrelation zwischen zwei Variablen in Python berechnen.
Beispiel: Punkt-Biserial-Korrelation in Python
Angenommen, wir haben eine binäre Variable x und eine kontinuierliche Variable y:
x = [0, 1, 1, 0, 0, 0, 1, 0, 1, 1, 0] y = [12, 14, 17, 17, 11, 22, 23, 11, 19, 8, 12]
Wir können die Funktion pointbiserialr() aus der Bibliothek scipy.stats verwenden, um die punktbiseriale Korrelation zwischen den beiden Variablen zu berechnen.
Beachten Sie, dass diese Funktion einen Korrelationskoeffizienten zusammen mit einem entsprechenden p-Wert zurückgibt:
import scipy.stats as stats #calculate point-biserial correlation stats. pointbiserialr (x,y) PointbiserialrResult(correlation=0.21816, pvalue=0.51928)
Der punktbiserielle Korrelationskoeffizient beträgt 0,21816 und der entsprechende p-Wert beträgt 0,51928 .
Da der Korrelationskoeffizient positiv ist, bedeutet dies, dass die Variable y tendenziell höhere Werte annimmt, wenn die Variable x den Wert „1“ annimmt, als wenn die Variable x den Wert „0“ annimmt.
Da der p-Wert dieser Korrelation nicht kleiner als 0,05 ist, ist diese Korrelation statistisch nicht signifikant.
Die genauen Details zur Berechnung dieser Korrelation finden Sie in der Dokumentation zu scipy.stats.