Як читати кореляційну матрицю


У статистиці ми часто прагнемо зрозуміти зв’язок між двома змінними.

Наприклад, ми можемо захотіти зрозуміти зв’язок між кількістю годин навчання студента та оцінкою, яку він отримує на іспиті.

Одним із способів кількісного визначення цього зв’язку є використання коефіцієнта кореляції Пірсона , який є мірою лінійного зв’язку між двома змінними . Він має значення від -1 до 1, де:

  • -1 вказує на абсолютно негативну лінійну кореляцію між двома змінними
  • 0 означає відсутність лінійної кореляції між двома змінними
  • 1 вказує на абсолютно позитивну лінійну кореляцію між двома змінними

Чим далі коефіцієнт кореляції від нуля, тим сильніший зв’язок між двома змінними.

За темою: що вважається «сильною» кореляцією?

Але в деяких випадках ми хочемо зрозуміти кореляцію між кількома парами змінних. У цих випадках ми можемо створити кореляційну матрицю , яка є квадратною таблицею, яка показує коефіцієнти кореляції між декількома змінними.

Приклад кореляційної матриці

Наведена нижче кореляційна матриця представляє коефіцієнти кореляції між декількома змінними, пов’язаними з освітою:

Приклад кореляційної матриці

Кожна клітинка таблиці показує кореляцію між двома конкретними змінними. Наприклад, у виділеній клітинці нижче показано, що кореляція між «годинами, витраченими на навчання» та «оцінкою іспиту» становить 0,82 , що вказує на те, що вони сильно корелюють. Більше годин, витрачених на навчання, тісно пов’язане з вищими оцінками на іспитах.

Приклад читання кореляційної матриці

А виділена клітинка нижче показує, що кореляція між «годинами, витраченими на навчання» та «годинами, витраченими на сон», становить -0,22 , що вказує на слабку негативну кореляцію між ними. Більше годин, проведених на навчання, пов’язано з меншою кількістю годин, проведених на сон.

Приклад негативної кореляції в кореляційній матриці

А виділена клітинка нижче показує, що кореляція між «годинами, проведеними уві сні» та «оцінкою IQ» становить 0,06 , що вказує на те, що вони в основному не корельовані. Існує дуже мало зв’язку між кількістю годин сну студента та його показником IQ.

Приклад кореляційної матриці без кореляції

Також зауважте, що всі коефіцієнти кореляції вздовж діагоналі таблиці дорівнюють 1, оскільки кожна змінна ідеально корелює сама із собою. Ці клітини непридатні для інтерпретації.

Приклад діагональних комірок на кореляційній матриці

Варіації кореляційної матриці

Зверніть увагу, що кореляційна матриця абсолютно симетрична. Наприклад, у верхній правій клітинці відображається точно таке ж значення, як у нижній лівій клітинці:

Приклад симетричної кореляційної матриці

Дійсно, дві комірки вимірюють кореляцію між «годинами, витраченими на навчання» та «шкільною оцінкою».

Оскільки кореляційна матриця є симетричною, половина коефіцієнтів кореляції, які відображаються в матриці, є зайвими та непотрібними. Таким чином, іноді буде показано лише половину кореляційної матриці:

Половина кореляційної матриці

І іноді кореляційна матриця буде пофарбована як теплова карта, щоб зробити коефіцієнти кореляції ще легшими для читання:

Приклад кореляційної матриці теплової карти

Коли використовувати кореляційну матрицю

На практиці кореляційна матриця зазвичай використовується з трьох причин:

1. Кореляційна матриця зручно узагальнює набір даних.

Кореляційна матриця — це простий спосіб узагальнити кореляції між усіма змінними в наборі даних. Наприклад, припустімо, що у нас є такий набір даних, що містить таку інформацію про 1000 студентів:

Приклад набору необроблених даних для кореляційної матриці

Було б дуже важко зрозуміти взаємозв’язок між кожною змінною, просто дивлячись на вихідні дані. На щастя, кореляційна матриця може допомогти нам швидко зрозуміти кореляції між кожною парою змінних.

2. Кореляційна матриця служить діагнозом для регресії.

Одним із ключових припущень множинної лінійної регресії є те, що жодна незалежна змінна в моделі не сильно корелює з будь-якою іншою змінною в моделі.

Коли дві незалежні змінні сильно корельовані, це призводить до проблеми, яка називається мультиколінеарністю , і може ускладнити інтерпретацію результатів регресії.

Один із найпростіших способів виявити потенційну проблему мультиколінеарності — подивитися на кореляційну матрицю та візуально перевірити, чи якась зі змінних сильно корелює одна з одною.

3. Кореляційну матрицю можна використовувати як вхідні дані для інших аналізів.

Кореляційна матриця використовується як вхідна інформація для інших комплексних аналізів, таких як пошуковий факторний аналіз і моделі структурних рівнянь.

Додаткові ресурси

У наступних посібниках пояснюється, як створити кореляційну матрицю за допомогою різноманітного статистичного програмного забезпечення:

Як створити кореляційну матрицю в Excel
Як створити кореляційну матрицю в SPSS
Як створити кореляційну матрицю в Stata
Як створити кореляційну матрицю в Python

Додати коментар

Ваша e-mail адреса не оприлюднюватиметься. Обов’язкові поля позначені *