Hoe punt-biseriële correlatie in python te berekenen
Punt-biseriële correlatie wordt gebruikt om de relatie tussen een binaire variabele, x, en een continue variabele, y, te meten.
Net als bij dePearson-correlatiecoëfficiënt heeft de punt-biseriële correlatiecoëfficiënt een waarde tussen -1 en 1 waarbij:
- -1 geeft een volkomen negatieve correlatie aan tussen twee variabelen
- 0 geeft aan dat er geen correlatie is tussen twee variabelen
- 1 geeft een perfect positieve correlatie aan tussen twee variabelen
In deze tutorial wordt uitgelegd hoe u de punt-biseriële correlatie tussen twee variabelen in Python kunt berekenen.
Voorbeeld: punt-biseriële correlatie in Python
Stel dat we een binaire variabele hebben, x, en een continue variabele, y:
x = [0, 1, 1, 0, 0, 0, 1, 0, 1, 1, 0] y = [12, 14, 17, 17, 11, 22, 23, 11, 19, 8, 12]
We kunnen de functie pointbiserialr() uit de bibliotheek scipy.stats gebruiken om de punt-biseriële correlatie tussen de twee variabelen te berekenen.
Merk op dat deze functie een correlatiecoëfficiënt retourneert samen met een overeenkomstige p-waarde:
import scipy.stats as stats #calculate point-biserial correlation stats. pointbiserialr (x,y) PointbiserialrResult(correlation=0.21816, pvalue=0.51928)
De punt-biseriële correlatiecoëfficiënt is 0,21816 en de overeenkomstige p-waarde is 0,51928 .
Omdat de correlatiecoëfficiënt positief is, geeft dit aan dat wanneer de variabele x de waarde „1“ aanneemt, de variabele y de neiging heeft hogere waarden aan te nemen dan wanneer de variabele x de waarde „0“ aanneemt.
Omdat de p-waarde van deze correlatie niet kleiner is dan 0,05, is deze correlatie niet statistisch significant.
U kunt de exacte details van hoe deze correlatie wordt berekend vinden in de scipy.stats- documentatie .