Что считается «сильным»; корреляция?
В статистике мы часто стремимся понять, как две переменные связаны друг с другом. Например, нам может быть интересно узнать:
- Какова связь между количеством часов обучения студента и оценкой, которую он получает на экзамене?
- Какова связь между температурой наружного воздуха и количеством рожков мороженого, проданных фургоном с едой?
- Какова связь между потраченными на маркетинг долларами и общим доходом, полученным для данного бизнеса?
В каждом из этих сценариев мы пытаемся понять взаимосвязь между двумя разными переменными.
В статистике одним из наиболее распространенных способов количественной оценки связи между двумя переменными является использование коэффициента корреляции Пирсона , который является мерой линейной связи между двумя переменными . Он имеет значение от -1 до 1, где:
- -1 указывает на совершенно отрицательную линейную корреляцию между двумя переменными.
- 0 указывает на отсутствие линейной корреляции между двумя переменными.
- 1 указывает на совершенно положительную линейную корреляцию между двумя переменными.
Это число, часто обозначаемое r , помогает нам понять силу связи между двумя переменными. Чем дальше r от нуля, тем сильнее связь между двумя переменными .
Важно отметить, что две переменные могут иметь сильную положительную или сильную отрицательную корреляцию.
Сильная положительная корреляция: когда значение одной переменной увеличивается, значение другой переменной увеличивается таким же образом. Например, чем больше часов студент тратит на учебу, тем выше его балл на экзамене. Количество учебных часов и результаты экзаменов имеют сильную положительную корреляцию.
Сильная отрицательная корреляция: когда значение одной переменной увеличивается, значение другой переменной имеет тенденцию уменьшаться. Например, чем старше становится курица, тем меньше яиц она несет. Возраст курицы и яйценоскость имеют сильную отрицательную корреляцию.
В следующей таблице показано практическое правило интерпретации силы связи между двумя переменными на основе значения r :
Абсолютное значение r | Сила отношений |
---|---|
р < 0,25 | Нет отношений |
0,25 < г < 0,5 | Слабые отношения |
0,5 < г < 0,75 | Умеренные отношения |
г > 0,75 | Крепкие отношения |
Корреляция между двумя переменными считается сильной, если абсолютное значение r превышает 0,75 . Однако определение «сильной» корреляции может варьироваться от одной области к другой.
Медицинский
Например, в медицинских областях определение «крепких» отношений часто гораздо ниже. Если связь между приемом определенного лекарства и уменьшением количества сердечных приступов равна r = 0,3, в других областях эту связь можно считать «слабо положительной», но в медицине она достаточно значительна, поэтому стоит принимать лекарство, чтобы снизить вероятность возникновения сердечного приступа. случился сердечный приступ.
Человеческие ресурсы
В другой области, такой как человеческие ресурсы, более низкие корреляции также могут использоваться чаще. Например, было показано, что корреляция между оценками в колледже и производительностью труда составляет примерно r = 0,16 . Это довольно низкая цифра, но она достаточно важна, чтобы компания, по крайней мере, учитывала это во время собеседования.
Технологии
А в такой области, как технологии, корреляция между переменными в некоторых случаях должна быть намного выше, чтобы считаться «сильной». Например, если компания создает беспилотный автомобиль и корреляция между решениями автомобиля о повороте и вероятностью попадания в аварию равна r = 0,95 , это, вероятно, слишком мало для того, чтобы автомобиль можно было считать безопасным, поскольку результат создания беспилотный автомобиль r = 0,95. неправильное решение может оказаться фатальным.
Просмотр корреляций
Независимо от того, в какой области вы работаете, полезно создать диаграмму рассеяния двух изучаемых переменных, чтобы вы могли хотя бы визуально изучить взаимосвязь между ними.
Например, предположим, что у нас есть следующий набор данных, показывающий рост и вес 12 человек:
Немного сложно понять взаимосвязь между этими двумя переменными, просто взглянув на необработанные данные. Однако гораздо легче понять взаимосвязь, если мы создадим диаграмму рассеяния с высотой по оси X и весом по оси Y:
Между этими двумя переменными явно существует положительная связь.
Создание облака точек — хорошая идея по двум другим причинам:
(1) Диаграмма рассеяния позволяет выявить выбросы, влияющие на корреляцию.
Экстремальный выброс может существенно изменить коэффициент корреляции Пирсона. Рассмотрим пример ниже, в котором переменные X и Y имеют коэффициент корреляции Пирсона r = 0,00 .
Но теперь представьте, что у нас есть выброс в наборе данных:
Этот выброс приводит к тому, что корреляция равна r = 0,878 . Эта единственная точка данных полностью меняет корреляцию и создает впечатление, будто между переменными X и Y существует сильная связь, хотя на самом деле это не так.
(2) Диаграмма рассеяния может помочь вам выявить нелинейные связи между переменными.
Коэффициент корреляции Пирсона просто говорит нам, связаны ли две переменные линейно . Но даже если коэффициент корреляции Пирсона говорит нам, что две переменные не коррелируют, между ними все равно может быть какая-то нелинейная связь. Это еще одна причина, по которой полезно создать диаграмму рассеяния.
Например, рассмотрим приведенную ниже диаграмму рассеяния между переменными X и Y , в которой их корреляция равна r = 0,00 .
Переменные явно не имеют линейной связи, но у них есть нелинейная связь: значения y — это просто значения x, возведенные в квадрат. Коэффициент корреляции сам по себе не мог обнаружить эту взаимосвязь, но диаграмма рассеяния могла.
Заключение
В итоге:
- Как правило, корреляция выше 0,75 считается «сильной» корреляцией между двумя переменными.
- Однако это практическое правило может варьироваться от региона к региону. Например, в сфере медицины гораздо более слабая корреляция может считаться сильной по сравнению с областью технологий. Лучше всего использовать опыт в конкретной области, чтобы решить, что считать сильным.
- При использовании корреляции для описания взаимосвязи между двумя переменными полезно также создать диаграмму рассеяния, чтобы вы могли выявить выбросы в наборе данных, а также потенциальную нелинейную связь.
Дополнительные ресурсы
Что считается «слабой» корреляцией?
Калькулятор корреляционной матрицы
Как читать корреляционную матрицу