Как создать корреляционную матрицу в stata


В статистике мы часто стремимся понять взаимосвязь между двумя переменными. Например, мы можем захотеть понять взаимосвязь между количеством часов обучения студента и оценкой, которую он получает на экзамене.

Один из способов количественной оценки этой взаимосвязи – использовать коэффициент корреляции Пирсона , который является мерой линейной связи между двумя переменными . Он имеет значение от -1 до 1, где:

  • -1 указывает на совершенно отрицательную линейную корреляцию между двумя переменными.
  • 0 указывает на отсутствие линейной корреляции между двумя переменными.
  • 1 указывает на совершенно положительную линейную корреляцию между двумя переменными.

Чем дальше коэффициент корреляции от нуля, тем сильнее связь между двумя переменными.

Но в некоторых случаях мы хотим понять корреляцию между несколькими парами переменных. В этих случаях мы можем создать матрицу корреляции , которая представляет собой квадратную таблицу, показывающую коэффициенты корреляции между несколькими парными комбинациями переменных.

В этом уроке мы объясним, как создать корреляционную матрицу в Stata.

Как создать корреляционную матрицу в Stata

Команда corr может использоваться для создания корреляционной матрицы для определенного набора данных в Stata.

Чтобы проиллюстрировать это, давайте загрузим данные переписи 1980 года в Stata, введя в поле команды следующее:

используйте https://www.stata-press.com/data/r13/census13

Затем мы можем получить краткую сводку набора данных, введя следующее в поле команды:

обобщить

В результате получается следующая таблица:

Матрица корреляции в Stata

Мы видим, что набор данных содержит девять различных переменных. Чтобы создать корреляционную матрицу для каждой парной комбинации переменных в наборе данных, мы можем ввести в поле команды следующее:

корр.

В результате получается следующая корреляционная матрица:

Пример корреляционной матрицы в Stata

Числа, показанные в таблице, представляют собой коэффициенты корреляции Пирсона для каждой парной комбинации переменных. Например, корреляция между населением и штатом равна -0,0540 . Это указывает на то, что эти две переменные слегка отрицательно коррелируют.

Обратите внимание, что корреляции по диагоналям таблицы равны 1,0000, поскольку каждая переменная идеально коррелирует сама с собой.

Вы также можете создать матрицу корреляции только для определенного подмножества переменных в наборе данных, указав переменные после команды corr . Например, вот как создать корреляционную матрицу только для переменных pop , medage и Region :

регион корр-поп-медиа

В результате получается следующая корреляционная матрица только для этих трех переменных:

Пример корреляционной матрицы в Stata

Также можно поместить звездочку рядом с коэффициентами корреляции, которые статистически значимы на определенном уровне значимости, используя команду pwcorr (которая дает тот же результат, что и corr ) с командой star() .

Например, следующий код создает матрицу корреляции для каждой переменной в наборе данных переписи и помещает звездочку рядом с коэффициентами корреляции, которые статистически значимы при α = 0,05:

pwcorr, звезда (.05)

Матрица корреляции со статистической значимостью в Stata

Обратите внимание, что некоторые коэффициенты корреляции в таблице статистически значимы при α = 0,05. Мы могли бы присвоить α любое число, которое хотим, но обычно выбирают 0,01, 0,05 и 0,10.

В целом, чем ниже значение α, тем менее статистически значимыми будут коэффициенты корреляции. Например, предположим, что мы установили α = 0,01.

pwcorr, звезда (.01)

Матрица корреляции в Stata

Обратите внимание, что рядом с меньшим количеством коэффициентов корреляции отмечена звездочка.

Добавить комментарий

Ваш адрес email не будет опубликован. Обязательные поля помечены *