Що вважається «сильним»; кореляція?
У статистиці ми часто прагнемо зрозуміти, як дві змінні співвідносяться одна з одною. Наприклад, ми можемо захотіти знати:
- Який зв’язок між кількістю годин навчання студента та оцінкою, яку він отримує на іспиті?
- Який зв’язок між зовнішньою температурою та кількістю ріжків морозива, проданих у гастрономі?
- Який зв’язок між витраченими маркетинговими доларами та загальним доходом, отриманим для даного бізнесу?
У кожному з цих сценаріїв ми намагаємося зрозуміти зв’язок між двома різними змінними.
У статистиці одним із найпоширеніших способів кількісного визначення зв’язку між двома змінними є використання коефіцієнта кореляції Пірсона , який є мірою лінійного зв’язку між двома змінними . Він має значення від -1 до 1, де:
- -1 вказує на абсолютно негативну лінійну кореляцію між двома змінними
- 0 означає відсутність лінійної кореляції між двома змінними
- 1 вказує на абсолютно позитивну лінійну кореляцію між двома змінними
Це число, яке часто позначається як r , допомагає нам зрозуміти силу зв’язку між двома змінними. Чим далі r від нуля, тим сильніший зв’язок між двома змінними .
Важливо зазначити, що дві змінні можуть мати сильну позитивну або сильну негативну кореляцію.
Сильна позитивна кореляція: коли значення однієї змінної зростає, значення іншої змінної зростає таким же чином. Наприклад, чим більше годин студент витрачає на навчання, тим вищий його бал на іспиті. Вивчені години та результати іспитів мають сильну позитивну кореляцію.
Сильна негативна кореляція: коли значення однієї змінної зростає, значення іншої змінної має тенденцію до зменшення. Наприклад, чим старшою стає курка, тим менше вона дає яєць. Вік курки та несучість мають сильну негативну кореляцію.
У наведеній нижче таблиці показано емпіричне правило для інтерпретації сили зв’язку між двома змінними на основі значення r :
Абсолютне значення r | Міцність відносин |
---|---|
r < 0,25 | Жодних стосунків |
0,25 < r < 0,5 | Слабкі стосунки |
0,5 < r < 0,75 | Помірні стосунки |
r > 0,75 | Міцні стосунки |
Кореляція між двома змінними вважається сильною, якщо абсолютне значення r перевищує 0,75 . Однак визначення «сильної» кореляції може відрізнятися від однієї області до іншої.
Медичний
Наприклад, у медичних галузях визначення «сильних» стосунків часто набагато нижче. Якщо зв’язок між прийомом певного препарату та зменшенням частоти серцевих нападів становить r = 0,3, це можна вважати «слабко позитивним» зв’язком в інших областях, але в медицині це досить значуще, щоб ліки варто приймати, щоб зменшити ймовірність серцевий напад.
Людські ресурси
В іншій сфері, такій як людські ресурси, нижчі кореляції також можна використовувати частіше. Наприклад, було показано, що кореляція між оцінками коледжу та результатами роботи становить приблизно r = 0,16 . Це досить мало, але досить важливо, щоб компанія принаймні врахувала це під час співбесіди.
технології
А в такій галузі, як технологія, у деяких випадках кореляція між змінними може бути набагато вищою, щоб вважатися «сильною». Наприклад, якщо компанія створює безпілотний автомобіль і кореляція між рішеннями автомобіля щодо повороту та ймовірністю аварії становить r = 0,95 , це, ймовірно, занадто мало, щоб автомобіль можна було вважати безпечним, оскільки результат прийняття безпілотний автомобіль становить r = 0,95. неправильне рішення може бути фатальним.
Переглянути кореляції
Незалежно від того, в якій галузі ви працюєте, корисно створити діаграму розсіювання двох змінних, які ви вивчаєте, щоб ви могли принаймні візуально перевірити зв’язок між ними.
Наприклад, припустімо, що ми маємо такий набір даних, який показує зріст і вагу 12 осіб:
Трохи складно зрозуміти зв’язок між цими двома змінними, просто подивившись на вихідні дані. Однак набагато простіше зрозуміти залежність, якщо ми створимо діаграму розсіювання з висотою на осі x і вагою на осі y:
Між цими двома змінними чітко простежується позитивний зв’язок.
Створення хмари точок є хорошою ідеєю з двох інших причин:
(1) Діаграма розсіювання дозволяє визначити викиди, які впливають на кореляцію.
Екстремальний викид може значно змінити коефіцієнт кореляції Пірсона. Розглянемо наведений нижче приклад, у якому змінні X і Y мають коефіцієнт кореляції Пірсона r = 0,00 .
Але тепер уявіть, що ми маємо викид у наборі даних:
Цей викид призводить до того, що кореляція становить r = 0,878 . Ця єдина точка даних повністю змінює кореляцію та створює враження, що між змінними X і Y існує сильний зв’язок, хоча насправді його немає.
(2) Діаграма розсіювання може допомогти вам визначити нелінійні зв’язки між змінними.
Коефіцієнт кореляції Пірсона просто повідомляє нам, чи є дві змінні лінійно пов’язаними. Але навіть якщо коефіцієнт кореляції Пірсона говорить нам, що дві змінні не корельовані, вони все одно можуть мати якийсь нелінійний зв’язок. Це ще одна причина, чому корисно створювати діаграму розсіювання.
Наприклад, розглянемо наведену нижче діаграму розсіювання між змінними X і Y , у якій їх кореляція r = 0,00 .
Очевидно, що змінні не мають лінійного зв’язку, але вони мають нелінійний зв’язок: значення y – це просто значення x у квадраті. Коефіцієнт кореляції сам по собі не може виявити цю залежність, але діаграма розсіювання може.
Висновок
Підсумовуючи:
- Як правило, кореляція, яка перевищує 0,75, вважається «сильною» кореляцією між двома змінними.
- Однак це емпіричне правило може відрізнятися залежно від регіону. Наприклад, набагато слабша кореляція може вважатися сильною в медичній галузі порівняно з технологічною. Щоб вирішити, що вважати сильним, найкраще використовувати досвід у певній галузі.
- Використовуючи кореляцію для опису зв’язку між двома змінними, корисно також створити діаграму розсіювання, щоб ви могли ідентифікувати викиди в наборі даних, а також потенційний нелінійний зв’язок.
Додаткові ресурси
Що вважається «слабкою» кореляцією?
Калькулятор кореляційної матриці
Як читати кореляційну матрицю