Як розрахувати точково-бісеріальну кореляцію в python


Точково-бісерійна кореляція використовується для вимірювання зв’язку між двійковою змінною x і постійною змінною y.

Подібно до коефіцієнта кореляції Пірсона , точково-бісерійний коефіцієнт кореляції приймає значення від -1 до 1, де:

  • -1 вказує на абсолютно негативну кореляцію між двома змінними
  • 0 означає відсутність кореляції між двома змінними
  • 1 вказує на абсолютно позитивну кореляцію між двома змінними

У цьому посібнику пояснюється, як обчислити точково-бісеріальну кореляцію між двома змінними в Python.

Приклад: точково-бісерійна кореляція в Python

Припустімо, що у нас є двійкова змінна x і безперервна змінна y:

 x = [0, 1, 1, 0, 0, 0, 1, 0, 1, 1, 0]
y = [12, 14, 17, 17, 11, 22, 23, 11, 19, 8, 12]

Ми можемо використати функцію pointbiserialr() із бібліотеки scipy.stats для обчислення точково-бісерійної кореляції між двома змінними.

Зауважте, що ця функція повертає коефіцієнт кореляції разом із відповідним p-значенням:

 import scipy.stats as stats

#calculate point-biserial correlation
stats. pointbiserialr (x,y)

PointbiserialrResult(correlation=0.21816, pvalue=0.51928)

Коефіцієнт точкової бісерійної кореляції становить 0,21816 , а відповідне значення p — 0,51928 .

Оскільки коефіцієнт кореляції позитивний, це вказує на те, що коли змінна x приймає значення «1», змінна y має тенденцію приймати більш високі значення, ніж коли змінна x приймає значення «0».

Оскільки p-значення цієї кореляції не менше 0,05, ця кореляція не є статистично значущою.

Ви можете знайти точні відомості про те, як обчислюється ця кореляція, у документації scipy.stats.

Додати коментар

Ваша e-mail адреса не оприлюднюватиметься. Обов’язкові поля позначені *