Jak obliczyć korelację punktowo-biseryjną w pythonie
Korelacja punktowo-biserialna służy do pomiaru związku między zmienną binarną x i zmienną ciągłą y.
Podobnie jak współczynnik korelacji Pearsona , współczynnik korelacji punktowo-dwuseryjnej przyjmuje wartość z zakresu od -1 do 1, gdzie:
- -1 oznacza całkowicie ujemną korelację między dwiema zmiennymi
- Wartość 0 oznacza brak korelacji między dwiema zmiennymi
- 1 wskazuje na doskonale dodatnią korelację pomiędzy dwiema zmiennymi
W tym samouczku wyjaśniono, jak obliczyć korelację punktowo-biseryjną między dwiema zmiennymi w Pythonie.
Przykład: korelacja punktowo-biserialna w Pythonie
Załóżmy, że mamy zmienną binarną x i zmienną ciągłą y:
x = [0, 1, 1, 0, 0, 0, 1, 0, 1, 1, 0] y = [12, 14, 17, 17, 11, 22, 23, 11, 19, 8, 12]
Możemy użyć funkcji pointbiserialr() z biblioteki scipy.stats, aby obliczyć korelację punktowo-biserialną pomiędzy dwiema zmiennymi.
Należy zauważyć, że ta funkcja zwraca współczynnik korelacji wraz z odpowiadającą mu wartością p:
import scipy.stats as stats #calculate point-biserial correlation stats. pointbiserialr (x,y) PointbiserialrResult(correlation=0.21816, pvalue=0.51928)
Współczynnik korelacji punktowo-dwuseryjnej wynosi 0,21816 , a odpowiadająca mu wartość p wynosi 0,51928 .
Ponieważ współczynnik korelacji jest dodatni, oznacza to, że gdy zmienna x przyjmuje wartość „1”, zmienna y ma tendencję do przyjmowania wyższych wartości niż wtedy, gdy zmienna x przyjmuje wartość „0”.
Ponieważ wartość p tej korelacji jest nie mniejsza niż 0,05, korelacja ta nie jest istotna statystycznie.
Dokładne szczegóły dotyczące obliczania tej korelacji można znaleźć w dokumentacji scipy.stats.