Как рассчитать корреляцию между непрерывными и категориальными переменными


Когда мы хотим рассчитать корреляцию между двумя непрерывными переменными, мы обычно используем коэффициент корреляции Пирсона .

Однако, когда мы хотим вычислить корреляцию между непрерывной переменной и категориальной переменной , мы можем использовать так называемую точечную бисериальную корреляцию .

Точечная бисериальная корреляция используется для расчета корреляции между бинарной категориальной переменной (переменной, которая может принимать только два значения) и непрерывной переменной и имеет следующие свойства:

  • Корреляция между точками и бисериалами может варьироваться от -1 до 1.
  • Для каждой группы, созданной бинарной переменной, предполагается, что непрерывная переменная обычно распределяется с равными дисперсиями.
  • Для каждой группы, созданной бинарной переменной, предполагается отсутствие экстремальных выбросов.

В следующем примере показано, как на практике вычислить корреляцию между точками и бирядами.

Пример: расчет точечно-бирядной корреляции

Предположим, профессор университета хочет определить, существует ли корреляция между полом и баллом на конкретном квалификационном экзамене.

Он собирает следующие данные о 12 мальчиках и 12 девочках в своем классе:

Поскольку пол является категориальной переменной, а балл — непрерывной переменной, имеет смысл вычислить точечную бисериальную корреляцию между двумя переменными.

Профессор может использовать любое статистическое программное обеспечение (включая Excel, R, Python, SPSS, Stata) для расчета точечно-бисериальной корреляции между двумя переменными.

Следующий код показывает, как вычислить корреляцию между точками и бисериалами в R, используя значение 0 для обозначения женщин и 1 для представления мужчин для гендерной переменной:

 #define values for gender
gender <- c(0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0,
            1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1)

#define values for score
score <- c(77, 78, 79, 79, 82, 84, 85, 88, 89, 91, 91, 94,
           84, 84, 84, 85, 85, 86, 86, 86, 89, 91, 94, 98)

#calculate point-biserial correlation
horn. test (gender, score)

	Pearson's product-moment correlation

data: gender and score
t = 1.3739, df = 22, p-value = 0.1833
alternative hypothesis: true correlation is not equal to 0
95 percent confidence interval:
 -0.1379386 0.6147832
sample estimates:
      horn 
0.2810996

Из результата мы видим, что коэффициент точечной бисерийной корреляции равен 0,281 , а соответствующее значение p — 0,1833 .

Поскольку коэффициент корреляции положительный, это говорит нам о наличии положительной корреляции между полом и баллом.

Поскольку мы закодировали мужчин как 1, а женщин как 0, это указывает на то, что баллы, как правило, выше у мужчин (т. е. баллы имеют тенденцию увеличиваться по мере «увеличения» пола). » от 0 до 1).

Однако, поскольку значение p составляет не менее 0,05, этот коэффициент корреляции не является статистически значимым.

Дополнительные ресурсы

В следующих руководствах объясняется, как рассчитать двухрядную корреляцию точек с использованием различного статистического программного обеспечения:

Как рассчитать корреляцию между точками и бирядами в Excel
Как рассчитать двухрядную корреляцию точек в R
Как рассчитать корреляцию между точками и бисериалами в Python

Добавить комментарий

Ваш адрес email не будет опубликован. Обязательные поля помечены *