Як розрахувати точково-бісеріальну кореляцію в python
Точково-бісерійна кореляція використовується для вимірювання зв’язку між двійковою змінною x і постійною змінною y.
Подібно до коефіцієнта кореляції Пірсона , точково-бісерійний коефіцієнт кореляції приймає значення від -1 до 1, де:
- -1 вказує на абсолютно негативну кореляцію між двома змінними
- 0 означає відсутність кореляції між двома змінними
- 1 вказує на абсолютно позитивну кореляцію між двома змінними
У цьому посібнику пояснюється, як обчислити точково-бісеріальну кореляцію між двома змінними в Python.
Приклад: точково-бісерійна кореляція в Python
Припустімо, що у нас є двійкова змінна x і безперервна змінна y:
x = [0, 1, 1, 0, 0, 0, 1, 0, 1, 1, 0] y = [12, 14, 17, 17, 11, 22, 23, 11, 19, 8, 12]
Ми можемо використати функцію pointbiserialr() із бібліотеки scipy.stats для обчислення точково-бісерійної кореляції між двома змінними.
Зауважте, що ця функція повертає коефіцієнт кореляції разом із відповідним p-значенням:
import scipy.stats as stats #calculate point-biserial correlation stats. pointbiserialr (x,y) PointbiserialrResult(correlation=0.21816, pvalue=0.51928)
Коефіцієнт точкової бісерійної кореляції становить 0,21816 , а відповідне значення p — 0,51928 .
Оскільки коефіцієнт кореляції позитивний, це вказує на те, що коли змінна x приймає значення «1», змінна y має тенденцію приймати більш високі значення, ніж коли змінна x приймає значення «0».
Оскільки p-значення цієї кореляції не менше 0,05, ця кореляція не є статистично значущою.
Ви можете знайти точні відомості про те, як обчислюється ця кореляція, у документації scipy.stats.