Jak obliczyć korelację punktowo-biseryjną w pythonie


Korelacja punktowo-biserialna służy do pomiaru związku między zmienną binarną x i zmienną ciągłą y.

Podobnie jak współczynnik korelacji Pearsona , współczynnik korelacji punktowo-dwuseryjnej przyjmuje wartość z zakresu od -1 do 1, gdzie:

  • -1 oznacza całkowicie ujemną korelację między dwiema zmiennymi
  • Wartość 0 oznacza brak korelacji między dwiema zmiennymi
  • 1 wskazuje na doskonale dodatnią korelację pomiędzy dwiema zmiennymi

W tym samouczku wyjaśniono, jak obliczyć korelację punktowo-biseryjną między dwiema zmiennymi w Pythonie.

Przykład: korelacja punktowo-biserialna w Pythonie

Załóżmy, że mamy zmienną binarną x i zmienną ciągłą y:

 x = [0, 1, 1, 0, 0, 0, 1, 0, 1, 1, 0]
y = [12, 14, 17, 17, 11, 22, 23, 11, 19, 8, 12]

Możemy użyć funkcji pointbiserialr() z biblioteki scipy.stats, aby obliczyć korelację punktowo-biserialną pomiędzy dwiema zmiennymi.

Należy zauważyć, że ta funkcja zwraca współczynnik korelacji wraz z odpowiadającą mu wartością p:

 import scipy.stats as stats

#calculate point-biserial correlation
stats. pointbiserialr (x,y)

PointbiserialrResult(correlation=0.21816, pvalue=0.51928)

Współczynnik korelacji punktowo-dwuseryjnej wynosi 0,21816 , a odpowiadająca mu wartość p wynosi 0,51928 .

Ponieważ współczynnik korelacji jest dodatni, oznacza to, że gdy zmienna x przyjmuje wartość „1”, zmienna y ma tendencję do przyjmowania wyższych wartości niż wtedy, gdy zmienna x przyjmuje wartość „0”.

Ponieważ wartość p tej korelacji jest nie mniejsza niż 0,05, korelacja ta nie jest istotna statystycznie.

Dokładne szczegóły dotyczące obliczania tej korelacji można znaleźć w dokumentacji scipy.stats.

Dodaj komentarz

Twój adres e-mail nie zostanie opublikowany. Wymagane pola są oznaczone *