Как читать корреляционную матрицу


В статистике мы часто стремимся понять взаимосвязь между двумя переменными.

Например, мы можем захотеть понять взаимосвязь между количеством часов обучения студента и оценкой, которую он получает на экзамене.

Один из способов количественной оценки этой взаимосвязи – использовать коэффициент корреляции Пирсона , который является мерой линейной связи между двумя переменными . Он имеет значение от -1 до 1, где:

  • -1 указывает на совершенно отрицательную линейную корреляцию между двумя переменными.
  • 0 указывает на отсутствие линейной корреляции между двумя переменными.
  • 1 указывает на совершенно положительную линейную корреляцию между двумя переменными.

Чем дальше коэффициент корреляции от нуля, тем сильнее связь между двумя переменными.

Связанный: Что считается «сильной» корреляцией?

Но в некоторых случаях мы хотим понять корреляцию между несколькими парами переменных. В этих случаях мы можем создать матрицу корреляции , которая представляет собой квадратную таблицу, показывающую коэффициенты корреляции между несколькими переменными.

Пример корреляционной матрицы

В приведенной ниже матрице корреляции представлены коэффициенты корреляции между несколькими переменными, связанными с образованием:

Пример корреляционной матрицы

Каждая ячейка таблицы показывает корреляцию между двумя конкретными переменными. Например, выделенная ячейка ниже показывает, что корреляция между «часами, потраченными на учебу» и «оценкой на экзамене» составляет 0,82 , что указывает на их сильную положительную корреляцию. Больше часов, потраченных на учебу, тесно связано с более высокими баллами на экзаменах.

Пример чтения корреляционной матрицы

А выделенная ячейка ниже показывает, что корреляция между «часами, потраченными на учебу» и «часами, потраченными на сон» составляет -0,22 , что указывает на слабую отрицательную корреляцию. Больше часов, потраченных на учебу, связано с меньшим количеством часов, проведенных на сне.

Пример отрицательной корреляции в корреляционной матрице

А выделенная ячейка ниже показывает, что корреляция между «часами, проведенными во сне» и «оценкой IQ» составляет 0,06 , что указывает на то, что они практически не коррелируют. Существует очень слабая связь между количеством часов, в течение которых студент спит, и его показателем IQ.

Пример корреляционной матрицы без корреляции

Также обратите внимание, что все коэффициенты корреляции по диагонали таблицы равны 1, поскольку каждая переменная идеально коррелирует сама с собой. Эти ячейки бесполезны для интерпретации.

Пример диагональных ячеек корреляционной матрицы

Вариации корреляционной матрицы

Обратите внимание, что корреляционная матрица совершенно симметрична. Например, в верхней правой ячейке отображается точно то же значение, что и в нижней левой ячейке:

Пример симметричной корреляционной матрицы

Действительно, эти две ячейки измеряют корреляцию между «часами, потраченными на учебу» и «школьной оценкой».

Поскольку матрица корреляции симметрична, половина коэффициентов корреляции, отображаемых в матрице, являются избыточными и ненужными. Так, иногда будет отображаться только половина корреляционной матрицы:

Половина корреляционной матрицы

А иногда матрицу корреляции раскрашивают как тепловую карту, чтобы коэффициенты корреляции было еще легче читать:

Пример корреляционной матрицы тепловой карты

Когда использовать корреляционную матрицу

На практике корреляционная матрица обычно используется по трем причинам:

1. Корреляционная матрица удобно суммирует набор данных.

Матрица корреляции — это простой способ суммировать корреляции между всеми переменными в наборе данных. Например, предположим, что у нас есть следующий набор данных, содержащий следующую информацию для 1000 студентов:

Пример набора необработанных данных для корреляционной матрицы

Было бы очень сложно понять взаимосвязь между каждой переменной, просто взглянув на необработанные данные. К счастью, корреляционная матрица может помочь нам быстро понять корреляции между каждой парой переменных.

2. Корреляционная матрица служит диагностикой регрессии.

Одним из ключевых предположений множественной линейной регрессии является то, что ни одна независимая переменная в модели не имеет сильной корреляции с какой-либо другой переменной в модели.

Когда две независимые переменные сильно коррелируют, это приводит к проблеме, называемой мультиколлинеарностью , и может затруднить интерпретацию результатов регрессии.

Один из самых простых способов обнаружить потенциальную проблему мультиколлинеарности — посмотреть на матрицу корреляции и визуально проверить, сильно ли коррелируют какие-либо переменные друг с другом.

3. Корреляционная матрица может использоваться в качестве входных данных для других анализов.

Корреляционная матрица используется в качестве входных данных для других сложных анализов, таких как исследовательский факторный анализ и модели структурных уравнений.

Дополнительные ресурсы

В следующих руководствах объясняется, как создать корреляционную матрицу с помощью различного статистического программного обеспечения:

Как создать матрицу корреляции в Excel
Как создать матрицу корреляции в SPSS
Как создать корреляционную матрицу в Stata
Как создать матрицу корреляции в Python

Добавить комментарий

Ваш адрес email не будет опубликован. Обязательные поля помечены *