Коэффициент корреляции пирсона


Коэффициент корреляции Пирсона (также известный как «коэффициент корреляции момента продукта») является мерой линейной связи между двумя переменными X и Y. Он имеет значение от -1 до 1, где:

  • -1 указывает на совершенно отрицательную линейную корреляцию между двумя переменными.
  • 0 указывает на отсутствие линейной корреляции между двумя переменными.
  • 1 указывает на совершенно положительную линейную корреляцию между двумя переменными.

Формула нахождения коэффициента корреляции Пирсона

Формула для нахождения коэффициента корреляции Пирсона, обозначаемого r , для выборки данных ( через Википедию ):

Вероятно, вам никогда не придется вычислять эту формулу вручную, поскольку вы можете использовать программное обеспечение, чтобы сделать это за вас, но полезно понять, что именно делает эта формула, рассмотрев пример.

Предположим, у нас есть следующий набор данных:

Если мы поместим эти пары (X, Y) на диаграмму рассеяния, это будет выглядеть так:

Пример корреляции Пирсона на диаграмме рассеяния

Просто взглянув на эту диаграмму рассеяния, мы видим, что существует положительная связь между переменными X и Y: по мере увеличения X Y также имеет тенденцию к увеличению. Но чтобы точно определить, насколько положительно связаны эти две переменные, нам нужно найти коэффициент корреляции Пирсона.

Давайте просто сосредоточимся на числителе формулы:

Для каждой пары (X, Y) в нашем наборе данных нам нужно найти разницу между значением x и средним значением x, разницу между значением y и средним значением y, а затем умножить эти два числа вместе.

Например, наша первая пара (X, Y) — это (2, 2). Среднее значение x в этом наборе данных равно 5, а среднее значение y в этом наборе данных равно 7. Таким образом, разница между значением x этой пары и средним значением x составляет 2 – 5 = -3. Разница между значением y этой пары и средним значением y составляет 2 – 7 = -5. Затем, когда мы умножаем эти два числа, мы получаем -3 * -5 = 15.

Корреляция Пирсона вручную

Вот визуальный обзор того, что мы только что сделали:

Пример корреляции Пирсона

Затем просто сделайте это для каждой пары:

Пример корреляции ПирсонаПример корреляции Пирсона на диаграмме рассеяния

Последний шаг для получения числителя формулы — просто сложить все эти значения:

15 + 3 +3 + 15 = 36

Затем знаменатель формулы говорит нам найти сумму всех квадратов разностей x и y, затем умножить эти два числа вместе и затем извлечь квадратный корень:

Итак, сначала найдем сумму квадратов разностей x и y:

Далее мы перемножим эти два числа вместе: 20*68=1360.

Наконец, мы извлечем квадратный корень: √ 1,360 = 36,88.

Итак мы выяснили, что числитель формулы равен 36, а знаменатель равен 36,88. Это означает, что наш коэффициент корреляции Пирсона равен r = 36/36,88 = 0,976.

Это число близко к 1, что указывает на наличие сильной положительной линейной связи между нашими переменными X и Y. Это подтверждает связь, которую мы наблюдали на диаграмме рассеяния.

Просмотр корреляций

Помните, что коэффициент корреляции Пирсона говорит нам о типе линейной связи (положительная, отрицательная, отсутствие) между двумя переменными, а также о силе этой связи (слабая, умеренная, сильная).

Когда мы создаем диаграмму рассеяния двух переменных, мы можем увидеть реальную связь между двумя переменными. Вот многие типы линейных отношений, которые мы можем наблюдать:

Сильная положительная связь: по мере увеличения переменной по оси X, переменная по оси Y также увеличивается. Точки тесно сгруппированы, что указывает на сильную взаимосвязь.

Коэффициент корреляции Пирсона: 0,94

Слабая и положительная связь: по мере увеличения переменной по оси X, переменная по оси Y также увеличивается. Точки сильно разбросаны, что указывает на слабую взаимосвязь.

Коэффициент корреляции Пирсона: 0,44

Нет связи: между переменными нет четкой связи (положительной или отрицательной).

Коэффициент корреляции Пирсона: 0,03.

Сильная отрицательная связь: по мере увеличения переменной по оси X переменная по оси Y уменьшается. Точки плотно прилегают друг к другу, что указывает на сильную связь.

Коэффициент корреляции Пирсона: -0,87

Слабая и отрицательная связь: по мере увеличения переменной по оси X переменная по оси Y уменьшается. Точки сильно разбросаны, что указывает на слабую взаимосвязь.

Коэффициент корреляции Пирсона: – 0,46

Проверка значимости коэффициента корреляции Пирсона

Когда мы находим коэффициент корреляции Пирсона для набора данных, мы часто работаем с выборкой данных из более крупной совокупности . Это означает, что можно найти ненулевую корреляцию для двух переменных, даже если они фактически не коррелируют в генеральной совокупности.

Например, предположим, что мы создаем диаграмму рассеяния для переменных X и Y для каждой точки данных во всей совокупности, и она выглядит следующим образом:

Пример нулевой корреляции

Очевидно, что эти две переменные не коррелируют. Однако возможно, что когда мы возьмем выборку из 10 пунктов совокупности, мы выберем следующие точки:

Пример корреляции

Мы видим, что коэффициент корреляции Пирсона для этой выборки точек равен 0,93, что указывает на сильную положительную корреляцию, даже если корреляция населения равна нулю.

Чтобы проверить, является ли корреляция между двумя переменными статистически значимой или нет, мы можем найти следующую тестовую статистику:

Статистика теста T = r * √ (n-2) / (1-r 2 )

где n — количество пар в нашей выборке, r — коэффициент корреляции Пирсона, а статистика T-теста соответствует распределению с n-2 степенями свободы.

Давайте рассмотрим пример того, как проверить значимость коэффициента корреляции Пирсона.

Пример

Следующий набор данных показывает рост и вес 12 человек:

Диаграмма рассеяния ниже показывает значения этих двух переменных:

Диаграмма рассеяния корреляции

Коэффициент корреляции Пирсона для этих двух переменных составляет r = 0,836.

Статистика теста T = 0,836 * √ (12 -2) / (1-0,836 2 ) = 4,804.

Согласно нашему калькулятору t-распределения , показатель 4,804 с 10 степенями свободы имеет p-значение 0,0007. Поскольку 0,0007 <0,05, мы можем заключить, что корреляция между весом и ростом в этом примере статистически значима при альфа = 0,05.

Меры предосторожности

Хотя коэффициент корреляции Пирсона может быть полезен для определения того, имеют ли две переменные линейную связь, при интерпретации коэффициента корреляции Пирсона необходимо учитывать три вещи:

1. Корреляция не предполагает причинно-следственной связи. Дело не в том, что две переменные коррелируют, поэтому одна из них обязательно приводит к более или менее частому появлению другой. Классическим примером этого является положительная корреляция между продажами мороженого и нападениями акул. Когда в определенное время года продажи мороженого увеличиваются, количество нападений акул также имеет тенденцию к увеличению.

Означает ли это, что употребление мороженого вызывает нападение акул? Конечно, нет! Это просто означает, что летом потребление льда и нападения акул имеют тенденцию увеличиваться, потому что летом лед более популярен, и летом в океан отправляется больше людей.

2. Корреляции чувствительны к выбросам. Экстремальный выброс может существенно изменить коэффициент корреляции Пирсона. Рассмотрим пример ниже:

Пример выбросов корреляции

Переменные X и Y имеют коэффициент корреляции Пирсона 0,00 . Но представьте, что у нас есть выброс в наборе данных:

Пример корреляции Пирсона

Однако коэффициент корреляции Пирсона для этих двух переменных составляет 0,878 . Этот выброс меняет все. Вот почему при расчете корреляции для двух переменных рекомендуется визуализировать переменные с помощью диаграммы рассеяния для проверки выбросов.

3. Коэффициент корреляции Пирсона не отражает нелинейные связи между двумя переменными. Давайте представим, что у нас есть две переменные со следующей связью:

Корреляция для нелинейной зависимости

Коэффициент корреляции Пирсона для этих двух переменных равен 0,00, поскольку они не имеют линейной зависимости. Однако эти две переменные имеют нелинейную связь: значения y — это просто значения x, возведенные в квадрат.

При использовании коэффициента корреляции Пирсона имейте в виду, что вы просто проверяете, связаны ли две переменные линейно . Даже если коэффициент корреляции Пирсона говорит нам, что две переменные не коррелируют, они все равно могут иметь некоторый тип нелинейной связи. Это еще одна причина, почему полезно создавать диаграмму рассеяния при анализе взаимосвязи между двумя переменными: она может помочь вам обнаружить нелинейную связь.

Добавить комментарий

Ваш адрес email не будет опубликован. Обязательные поля помечены *