Как создать корреляционную матрицу в stata
В статистике мы часто стремимся понять взаимосвязь между двумя переменными. Например, мы можем захотеть понять взаимосвязь между количеством часов обучения студента и оценкой, которую он получает на экзамене.
Один из способов количественной оценки этой взаимосвязи – использовать коэффициент корреляции Пирсона , который является мерой линейной связи между двумя переменными . Он имеет значение от -1 до 1, где:
- -1 указывает на совершенно отрицательную линейную корреляцию между двумя переменными.
- 0 указывает на отсутствие линейной корреляции между двумя переменными.
- 1 указывает на совершенно положительную линейную корреляцию между двумя переменными.
Чем дальше коэффициент корреляции от нуля, тем сильнее связь между двумя переменными.
Но в некоторых случаях мы хотим понять корреляцию между несколькими парами переменных. В этих случаях мы можем создать матрицу корреляции , которая представляет собой квадратную таблицу, показывающую коэффициенты корреляции между несколькими парными комбинациями переменных.
В этом уроке мы объясним, как создать корреляционную матрицу в Stata.
Как создать корреляционную матрицу в Stata
Команда corr может использоваться для создания корреляционной матрицы для определенного набора данных в Stata.
Чтобы проиллюстрировать это, давайте загрузим данные переписи 1980 года в Stata, введя в поле команды следующее:
используйте https://www.stata-press.com/data/r13/census13
Затем мы можем получить краткую сводку набора данных, введя следующее в поле команды:
обобщить
В результате получается следующая таблица:
Мы видим, что набор данных содержит девять различных переменных. Чтобы создать корреляционную матрицу для каждой парной комбинации переменных в наборе данных, мы можем ввести в поле команды следующее:
корр.
В результате получается следующая корреляционная матрица:
Числа, показанные в таблице, представляют собой коэффициенты корреляции Пирсона для каждой парной комбинации переменных. Например, корреляция между населением и штатом равна -0,0540 . Это указывает на то, что эти две переменные слегка отрицательно коррелируют.
Обратите внимание, что корреляции по диагоналям таблицы равны 1,0000, поскольку каждая переменная идеально коррелирует сама с собой.
Вы также можете создать матрицу корреляции только для определенного подмножества переменных в наборе данных, указав переменные после команды corr . Например, вот как создать корреляционную матрицу только для переменных pop , medage и Region :
регион корр-поп-медиа
В результате получается следующая корреляционная матрица только для этих трех переменных:
Также можно поместить звездочку рядом с коэффициентами корреляции, которые статистически значимы на определенном уровне значимости, используя команду pwcorr (которая дает тот же результат, что и corr ) с командой star() .
Например, следующий код создает матрицу корреляции для каждой переменной в наборе данных переписи и помещает звездочку рядом с коэффициентами корреляции, которые статистически значимы при α = 0,05:
pwcorr, звезда (.05)
Обратите внимание, что некоторые коэффициенты корреляции в таблице статистически значимы при α = 0,05. Мы могли бы присвоить α любое число, которое хотим, но обычно выбирают 0,01, 0,05 и 0,10.
В целом, чем ниже значение α, тем менее статистически значимыми будут коэффициенты корреляции. Например, предположим, что мы установили α = 0,01.
pwcorr, звезда (.01)
Обратите внимание, что рядом с меньшим количеством коэффициентов корреляции отмечена звездочка.