Кореляція

У цій статті пояснюється значення кореляції між двома змінними, як обчислити коефіцієнт кореляції та різні типи кореляцій, які існують. Крім того, показано, як інтерпретувати значення кореляції між двома змінними.

Що таке кореляція?

Кореляція – це статистичний показник, який вказує на ступінь зв’язку між двома змінними. Більш конкретно, лінійна кореляція використовується для визначення ступеня лінійної кореляції між двома різними змінними.

Дві змінні пов’язані, коли зміна значень однієї змінної також змінює значення іншої змінної. Наприклад, якщо збільшення змінної A також збільшує змінну B, існує кореляція між змінними A і B.

Види кореляції

Залежно від зв’язку між двома випадковими величинами розрізняють такі види лінійної кореляції :

  • Пряма кореляція (або позитивна кореляція) : одна змінна збільшується, коли інша також збільшується.
  • Зворотна кореляція (або негативна кореляція) : коли одна змінна зростає, інша зменшується, і навпаки, якщо одна змінна зменшується, інша збільшується.
  • Нульова кореляція (кореляція відсутня) : між двома змінними немає зв’язку.

Майте на увазі, що існують різні типи лінійної кореляції, але також може статися так, що математичний зв’язок між двома змінними не можна представити прямою лінією, натомість потрібно використовувати більш складну функцію, наприклад притчу. або логарифм. У цьому випадку це буде нелінійна кореляція .

Коефіцієнт кореляції

Розглядаючи визначення кореляції та різні типи кореляції, які існують, давайте подивимося, як обчислюється це статистичне значення.

Коефіцієнт кореляції , також званий лінійним коефіцієнтом кореляції або коефіцієнтом кореляції Пірсона , є значенням кореляції між двома змінними.

Коефіцієнт кореляції двох статистичних змінних дорівнює частці між коваріацією змінних і квадратним коренем із добутку дисперсії кожної змінної. Отже, формула для розрахунку коефіцієнта кореляції має такий вигляд:

\rho_{XY}=\cfrac{Cov(X,Y)}{\sqrt{Var(X)\cdot Var(Y)}}

При розрахунку коефіцієнта кореляції на сукупності символом кореляції є грецька літера ρ. Але коли коефіцієнт обчислюється відносно вибірки, як символ зазвичай використовується буква r.

Значення індексу кореляції може бути від -1 до +1 включно. Нижче ми побачимо, як інтерпретується значення коефіцієнта кореляції.

Конкретний приклад розрахунку коефіцієнта кореляції можна побачити за посиланням:

Майте на увазі, що існують інші типи коефіцієнтів кореляції, наприклад, коефіцієнт кореляції Спірмена або Кендалла. Але найпоширенішим, безсумнівно, є коефіцієнт кореляції Пірсона.

Інтерпретація кореляції

Значення коефіцієнта кореляції може коливатися від -1 до +1 включно. Таким чином, залежно від значення коефіцієнта кореляції, це означає, що зв’язок між двома змінними є в ту чи іншу сторону. Ось як інтерпретувати значення кореляції :

  • r=-1 : дві змінні мають ідеальну негативну кореляцію, тому ми можемо намалювати лінію з негативним нахилом, у якій усі точки пов’язані.
  • -1<r<0 : кореляція між двома змінними негативна, тому коли одна змінна зростає, інша зменшується. Чим ближче значення до -1, тим більше негативно пов’язані змінні.
  • r=0 : кореляція між двома змінними дуже слабка, фактично лінійна залежність між ними дорівнює нулю. Це не означає, що змінні є незалежними, оскільки вони можуть мати нелінійний зв’язок.
  • 0<r<1 : кореляція між двома змінними позитивна, чим ближче значення до +1, тим сильніший зв’язок між змінними. У цьому випадку одна змінна має тенденцію до збільшення свого значення, коли інша також збільшується.
  • r=1 : дві змінні мають ідеальну позитивну кореляцію, тобто вони мають позитивну лінійну залежність.
види кореляції

Як ви можете бачити на діаграмах розсіювання вище, чим сильніша кореляція між двома змінними, тим ближче одна до одної точки на графіку. З іншого боку, якщо точки розташовані дуже далеко одна від одної, це означає, що кореляція слабка.

Пам’ятайте, що навіть якщо існує кореляція між двома змінними, це не означає, що між ними існує причинно-наслідковий зв’язок, тобто кореляція між двома змінними не означає, що зміна однієї змінної є причиною зміни іншої. змінна.

Наприклад, якщо ми виявимо, що існує позитивний зв’язок між виробленням організмом двох різних гормонів, це не обов’язково означає, що підвищення рівня одного гормону призводить до збільшення рівня іншого гормону. Цілком можливо, що організм виробляє обидва гормони, оскільки йому потрібні обидва для боротьби з хворобою, і тому підвищується рівень обох одночасно, у такому випадку причиною буде хвороба. Щоб визначити, чи існує причинно-наслідковий зв’язок між двома гормонами, необхідно провести більш детальне дослідження.

Кореляція і регресія

Кореляція та регресія — це дві загалом пов’язані концепції, оскільки обидві використовуються для аналізу зв’язку між двома змінними.

Кореляція — це статистичний показник, який кількісно визначає зв’язок між двома змінними, однак регресія передбачає створення рівняння (якщо це лінійна регресія, це буде пряма лінія), яке дозволяє зв’язати дві змінні.

Таким чином, кореляція просто надає числове значення зв’язку між змінними, тоді як регресію можна використовувати, щоб спробувати передбачити значення однієї змінної відносно іншої.

Як правило, ми спочатку аналізуємо, чи змінні корельовані, обчислюючи коефіцієнт кореляції. І якщо кореляція є значною, ми виконуємо регресію набору даних.

Коефіцієнт кореляції прийнято плутати зі значенням нахилу лінії, отриманої в лінійній регресії, однак вони не еквівалентні.

Кореляційна матриця

Кореляційна матриця – це матриця, яка містить у позиції i,j коефіцієнт кореляції між змінними i та j .

Таким чином, кореляційна матриця – це квадратна матриця, заповнена одиницями на головній діагоналі, а елемент рядка i і стовпця j складається зі значення коефіцієнта кореляції між змінною i і змінною j .

Таким чином, формула для кореляційної матриці виглядає наступним чином:

кореляційна матриця

золото

r_{ij}

– коефіцієнт кореляції між змінними

i

І

j.

Кореляційна матриця дуже корисна для узагальнення результатів і порівняння кореляції між декількома змінними одночасно, оскільки ви можете швидко побачити, які зв’язки сильні.

Додати коментар

Ваша e-mail адреса не оприлюднюватиметься. Обов’язкові поля позначені *