Как рассчитать корреляцию между точками и бисериалами в python
Точечно-бисериальная корреляция используется для измерения взаимосвязи между бинарной переменной x и непрерывной переменной y.
Подобно коэффициенту корреляции Пирсона , коэффициент точечно-бисерийной корреляции принимает значение от -1 до 1, где:
- -1 указывает на совершенно отрицательную корреляцию между двумя переменными.
- 0 указывает на отсутствие корреляции между двумя переменными.
- 1 указывает на совершенно положительную корреляцию между двумя переменными.
В этом руководстве объясняется, как вычислить корреляцию между двумя переменными в Python.
Пример: корреляция между точками и бисериалами в Python
Предположим, у нас есть двоичная переменная x и непрерывная переменная y:
x = [0, 1, 1, 0, 0, 0, 1, 0, 1, 1, 0] y = [12, 14, 17, 17, 11, 22, 23, 11, 19, 8, 12]
Мы можем использовать функцию pointbserialr() из библиотеки scipy.stats для расчета корреляции между точками и бисериалами между двумя переменными.
Обратите внимание, что эта функция возвращает коэффициент корреляции вместе с соответствующим значением p:
import scipy.stats as stats #calculate point-biserial correlation stats. pointbiserialr (x,y) PointbiserialrResult(correlation=0.21816, pvalue=0.51928)
Коэффициент точечно-бисерийной корреляции составляет 0,21816 , а соответствующее значение p — 0,51928 .
Поскольку коэффициент корреляции положителен, это указывает на то, что когда переменная x принимает значение «1», переменная y имеет тенденцию принимать более высокие значения, чем когда переменная x принимает значение «0».
Поскольку значение p этой корреляции не менее 0,05, эта корреляция не является статистически значимой.
Точные подробности расчета этой корреляции вы можете найти в документации scipy.stats.