Як створити кореляційну матрицю в stata
У статистиці ми часто прагнемо зрозуміти зв’язок між двома змінними. Наприклад, ми можемо захотіти зрозуміти зв’язок між кількістю годин навчання студента та оцінкою, яку він отримує на іспиті.
Одним із способів кількісного визначення цього зв’язку є використання коефіцієнта кореляції Пірсона , який є мірою лінійного зв’язку між двома змінними . Він має значення від -1 до 1, де:
- -1 вказує на абсолютно негативну лінійну кореляцію між двома змінними
- 0 означає відсутність лінійної кореляції між двома змінними
- 1 вказує на абсолютно позитивну лінійну кореляцію між двома змінними
Чим далі коефіцієнт кореляції від нуля, тим сильніший зв’язок між двома змінними.
Але в деяких випадках ми хочемо зрозуміти кореляцію між кількома парами змінних. У цих випадках ми можемо створити кореляційну матрицю , яка є квадратною таблицею, що показує коефіцієнти кореляції між кількома попарними комбінаціями змінних.
У цьому посібнику ми пояснюємо, як створити кореляційну матрицю в Stata.
Як створити кореляційну матрицю в Stata
Команда corr може бути використана для створення кореляційної матриці для певного набору даних у Stata.
Щоб проілюструвати це, давайте завантажимо дані перепису 1980 року в Stata, ввівши наступне в полі команди:
використовуйте https://www.stata-press.com/data/r13/census13
Потім ми можемо отримати короткий підсумок набору даних, ввівши наступне в поле команди:
узагальнити
Це створює наступну таблицю:
Ми бачимо, що набір даних містить дев’ять різних змінних. Щоб створити кореляційну матрицю для кожної попарної комбінації змінних у наборі даних, ми можемо ввести наступне в полі команди:
кор
Це створює таку кореляційну матрицю:
Числа, наведені в таблиці, представляють коефіцієнти кореляції Пірсона для кожної попарної комбінації змінних. Наприклад, співвідношення між населенням і штатом становить -0,0540 . Це вказує на те, що ці дві змінні трохи негативно корелюють.
Зауважте, що кореляції вздовж діагоналей таблиці дорівнюють 1,0000, оскільки кожна змінна ідеально корелює сама із собою.
Ви також можете створити кореляційну матрицю лише для певної підмножини змінних у наборі даних, вказавши змінні після команди corr . Наприклад, ось як створити кореляційну матрицю лише для змінних pop , medage та region :
корр. поп мед. обл
Це створює таку кореляційну матрицю лише для цих трьох змінних:
Також можна поставити зірочку біля коефіцієнтів кореляції, які є статистично значущими на певному рівні значущості, використовуючи команду pwcorr (яка дає той самий результат, що й corr ) з командою star() .
Наприклад, наступний код створює кореляційну матрицю для кожної змінної в наборі даних перепису та ставить зірочку біля коефіцієнтів кореляції, які є статистично значущими при α = 0,05:
pwcorr, зірка (.05)
Зверніть увагу, що кілька коефіцієнтів кореляції в таблиці є статистично значущими при α = 0,05. Ми можемо встановити для α будь-яке число, але типові варіанти – 0,01, 0,05 і 0,10.
Загалом, чим менше значення α, тим менш статистично значущими будуть коефіцієнти кореляції. Наприклад, припустимо, що ми встановили α = 0,01.
pwcorr, зірка (.01)
Зверніть увагу, як менше коефіцієнтів кореляції мають зірочку поруч.