Как рассчитать корреляцию между точками и бисериалами в python


Точечно-бисериальная корреляция используется для измерения взаимосвязи между бинарной переменной x и непрерывной переменной y.

Подобно коэффициенту корреляции Пирсона , коэффициент точечно-бисерийной корреляции принимает значение от -1 до 1, где:

  • -1 указывает на совершенно отрицательную корреляцию между двумя переменными.
  • 0 указывает на отсутствие корреляции между двумя переменными.
  • 1 указывает на совершенно положительную корреляцию между двумя переменными.

В этом руководстве объясняется, как вычислить корреляцию между двумя переменными в Python.

Пример: корреляция между точками и бисериалами в Python

Предположим, у нас есть двоичная переменная x и непрерывная переменная y:

 x = [0, 1, 1, 0, 0, 0, 1, 0, 1, 1, 0]
y = [12, 14, 17, 17, 11, 22, 23, 11, 19, 8, 12]

Мы можем использовать функцию pointbserialr() из библиотеки scipy.stats для расчета корреляции между точками и бисериалами между двумя переменными.

Обратите внимание, что эта функция возвращает коэффициент корреляции вместе с соответствующим значением p:

 import scipy.stats as stats

#calculate point-biserial correlation
stats. pointbiserialr (x,y)

PointbiserialrResult(correlation=0.21816, pvalue=0.51928)

Коэффициент точечно-бисерийной корреляции составляет 0,21816 , а соответствующее значение p — 0,51928 .

Поскольку коэффициент корреляции положителен, это указывает на то, что когда переменная x принимает значение «1», переменная y имеет тенденцию принимать более высокие значения, чем когда переменная x принимает значение «0».

Поскольку значение p этой корреляции не менее 0,05, эта корреляция не является статистически значимой.

Точные подробности расчета этой корреляции вы можете найти в документации scipy.stats.

Добавить комментарий

Ваш адрес email не будет опубликован. Обязательные поля помечены *