Як створити кореляційну матрицю в stata


У статистиці ми часто прагнемо зрозуміти зв’язок між двома змінними. Наприклад, ми можемо захотіти зрозуміти зв’язок між кількістю годин навчання студента та оцінкою, яку він отримує на іспиті.

Одним із способів кількісного визначення цього зв’язку є використання коефіцієнта кореляції Пірсона , який є мірою лінійного зв’язку між двома змінними . Він має значення від -1 до 1, де:

  • -1 вказує на абсолютно негативну лінійну кореляцію між двома змінними
  • 0 означає відсутність лінійної кореляції між двома змінними
  • 1 вказує на абсолютно позитивну лінійну кореляцію між двома змінними

Чим далі коефіцієнт кореляції від нуля, тим сильніший зв’язок між двома змінними.

Але в деяких випадках ми хочемо зрозуміти кореляцію між кількома парами змінних. У цих випадках ми можемо створити кореляційну матрицю , яка є квадратною таблицею, що показує коефіцієнти кореляції між кількома попарними комбінаціями змінних.

У цьому посібнику ми пояснюємо, як створити кореляційну матрицю в Stata.

Як створити кореляційну матрицю в Stata

Команда corr може бути використана для створення кореляційної матриці для певного набору даних у Stata.

Щоб проілюструвати це, давайте завантажимо дані перепису 1980 року в Stata, ввівши наступне в полі команди:

використовуйте https://www.stata-press.com/data/r13/census13

Потім ми можемо отримати короткий підсумок набору даних, ввівши наступне в поле команди:

узагальнити

Це створює наступну таблицю:

Кореляційна матриця в Stata

Ми бачимо, що набір даних містить дев’ять різних змінних. Щоб створити кореляційну матрицю для кожної попарної комбінації змінних у наборі даних, ми можемо ввести наступне в полі команди:

кор

Це створює таку кореляційну матрицю:

Приклад кореляційної матриці в Stata

Числа, наведені в таблиці, представляють коефіцієнти кореляції Пірсона для кожної попарної комбінації змінних. Наприклад, співвідношення між населенням і штатом становить -0,0540 . Це вказує на те, що ці дві змінні трохи негативно корелюють.

Зауважте, що кореляції вздовж діагоналей таблиці дорівнюють 1,0000, оскільки кожна змінна ідеально корелює сама із собою.

Ви також можете створити кореляційну матрицю лише для певної підмножини змінних у наборі даних, вказавши змінні після команди corr . Наприклад, ось як створити кореляційну матрицю лише для змінних pop , medage та region :

корр. поп мед. обл

Це створює таку кореляційну матрицю лише для цих трьох змінних:

Приклад кореляційної матриці в Stata

Також можна поставити зірочку біля коефіцієнтів кореляції, які є статистично значущими на певному рівні значущості, використовуючи команду pwcorr (яка дає той самий результат, що й corr ) з командою star() .

Наприклад, наступний код створює кореляційну матрицю для кожної змінної в наборі даних перепису та ставить зірочку біля коефіцієнтів кореляції, які є статистично значущими при α = 0,05:

pwcorr, зірка (.05)

Кореляційна матриця зі статистичною значущістю в Stata

Зверніть увагу, що кілька коефіцієнтів кореляції в таблиці є статистично значущими при α = 0,05. Ми можемо встановити для α будь-яке число, але типові варіанти – 0,01, 0,05 і 0,10.

Загалом, чим менше значення α, тим менш статистично значущими будуть коефіцієнти кореляції. Наприклад, припустимо, що ми встановили α = 0,01.

pwcorr, зірка (.01)

Кореляційна матриця в Stata

Зверніть увагу, як менше коефіцієнтів кореляції мають зірочку поруч.

Додати коментар

Ваша e-mail адреса не оприлюднюватиметься. Обов’язкові поля позначені *