Корреляция
В этой статье объясняется значение корреляции между двумя переменными, как рассчитать коэффициент корреляции и различные типы существующих корреляций. Дополнительно показано, как интерпретировать значение корреляции между двумя переменными.
Что такое корреляция?
Корреляция — это статистическая мера, показывающая степень связи между двумя переменными. Более конкретно, линейная корреляция используется для определения степени линейной корреляции между двумя различными переменными.
Две переменные связаны, когда изменение значения одной переменной также меняет значения другой переменной. Например, если увеличение переменной A также увеличивает переменную B, между переменными A и B существует корреляция.
Виды корреляции
В зависимости от связи между двумя случайными величинами различают следующие виды линейной корреляции :
- Прямая корреляция (или положительная корреляция) : одна переменная увеличивается, когда увеличивается и другая.
- Обратная корреляция (или отрицательная корреляция) : когда одна переменная увеличивается, другая уменьшается, и наоборот, если одна переменная уменьшается, другая увеличивается.
- Нулевая корреляция (отсутствие корреляции) : между двумя переменными нет никакой связи.
Имейте в виду, что существуют различные типы линейной корреляции, но может также случиться так, что математическая связь между двумя переменными не может быть представлена прямой линией, а вместо этого необходимо использовать более сложную функцию, например притчу. или логарифм. В данном случае это будет нелинейная корреляция .
Коэффициент корреляции
Учитывая определение корреляции и существующие различные типы корреляции, давайте посмотрим, как рассчитывается это статистическое значение.
Коэффициент корреляции , также называемый коэффициентом линейной корреляции или коэффициентом корреляции Пирсона , представляет собой значение корреляции между двумя переменными.
Коэффициент корреляции двух статистических переменных равен частному между ковариацией переменных и квадратным корнем из произведения дисперсии каждой переменной. Следовательно, формула расчета коэффициента корреляции выглядит следующим образом:
При расчете коэффициента корреляции для популяции символом корреляции является греческая буква ρ. Но когда коэффициент рассчитывается относительно выборки, в качестве обозначения обычно используется буква r.
Значение индекса корреляции может находиться в пределах от -1 до +1 включительно. Ниже мы увидим, как интерпретируется значение коэффициента корреляции.
Конкретный пример расчета коэффициента корреляции вы можете увидеть по следующей ссылке:
Имейте в виду, что существуют и другие типы коэффициентов корреляции, например коэффициент корреляции Спирмена или Кендалла. Но наиболее распространенным, несомненно, является коэффициент корреляции Пирсона.
Интерпретация корреляции
Значение коэффициента корреляции может находиться в диапазоне от -1 до +1 включительно. Итак, в зависимости от значения коэффициента корреляции это означает, что связь между двумя переменными находится в том или ином направлении. Вот как интерпретировать значение корреляции :
- r=-1 : две переменные имеют идеальную отрицательную корреляцию, поэтому мы можем нарисовать линию с отрицательным наклоном, в которой все точки соединяются.
- -1<r<0 : корреляция между двумя переменными отрицательна, поэтому, когда одна переменная увеличивается, другая уменьшается. Чем ближе значение к -1, тем более отрицательно связаны переменные.
- r=0 : корреляция между двумя переменными очень слабая, фактически линейная связь между ними равна нулю. Это не означает, что переменные независимы, поскольку они могут иметь нелинейную связь.
- 0<r<1 : корреляция между двумя переменными положительна, чем ближе значение к +1, тем сильнее связь между переменными. В этом случае одна переменная имеет тенденцию увеличивать свое значение, когда увеличивается и другая.
- r=1 : две переменные имеют идеальную положительную корреляцию, то есть имеют положительную линейную связь.
Как вы можете видеть на диаграммах рассеяния выше, чем сильнее корреляция между двумя переменными, тем ближе друг к другу точки на графике. С другой стороны, если точки находятся очень далеко друг от друга, это означает, что корреляция слабая.
Имейте в виду, что даже если между двумя переменными существует корреляция, это не означает, что между ними существует причинно-следственная связь, т.е. корреляция между двумя переменными не означает, что изменение одной переменной является причиной изменения другой. переменная.
Например, если мы обнаружим, что существует положительная связь между выработкой организмом двух разных гормонов, это не обязательно означает, что увеличение одного гормона приводит к увеличению другого гормона. Возможно, организм вырабатывает оба гормона, потому что ему нужны оба гормона для борьбы с болезнью, и поэтому уровень обоих гормонов повышается одновременно, и в этом случае причиной будет болезнь. Чтобы определить, существует ли причинно-следственная связь между двумя гормонами, следует провести более детальное исследование.
Корреляция и регрессия
Корреляция и регрессия — это две обычно связанные концепции, поскольку обе используются для анализа взаимосвязи между двумя переменными.
Корреляция — это статистическая мера, которая количественно определяет взаимосвязь между двумя переменными, однако регрессия предполагает создание уравнения (если это линейная регрессия, это будет прямая линия), которое позволяет связать две переменные.
Таким образом, корреляция просто дает числовое значение взаимосвязи между переменными, тогда как регрессию можно использовать, чтобы попытаться предсказать значение одной переменной относительно другой.
Обычно мы сначала анализируем, коррелируют ли переменные, вычисляя коэффициент корреляции. И если корреляция значительна, мы запускаем регрессию набора данных.
Коэффициент корреляции принято путать со значением наклона линии, полученной в линейной регрессии, однако они не эквивалентны.
Матрица корреляции
Матрица корреляции — это матрица, которая содержит в позиции i,j коэффициент корреляции между переменными i и j .
Следовательно, матрица корреляции представляет собой квадратную матрицу, заполненную единицами на главной диагонали, а элемент строки i и столбца j состоит из значения коэффициента корреляции между переменной i и переменной j .
Таким образом, формула корреляционной матрицы выглядит следующим образом:
Золото
– коэффициент корреляции между переменными
И
Матрица корреляции очень полезна для обобщения результатов и сравнения корреляции между несколькими переменными одновременно, поскольку вы можете быстро увидеть, какие связи являются сильными.