Як виконати кореляційний тест у r (з прикладами)


Одним із способів кількісного визначення зв’язку між двома змінними є використання коефіцієнта кореляції Пірсона , який є мірою лінійного зв’язку між двома змінними .

Він завжди приймає значення від -1 до 1, де:

  • -1 вказує на абсолютно негативну лінійну кореляцію між двома змінними
  • 0 означає відсутність лінійної кореляції між двома змінними
  • 1 вказує на абсолютно позитивну лінійну кореляцію між двома змінними

Щоб визначити, чи є коефіцієнт кореляції статистично значущим, ви можете обчислити відповідний t-показник і p-значення.

Формула для розрахунку t-показника коефіцієнта кореляції (r):

t = r * √ n-2 / √ 1-r 2

P-значення обчислюється як відповідне двостороннє p-значення для t-розподілу з n-2 ступенями свободи.

Приклад: тест кореляції в R

Щоб визначити, чи є коефіцієнт кореляції між двома змінними статистично значущим, ви можете виконати кореляційний тест у R за допомогою такого синтаксису:

cor.test(x, y, method=c(“pearson”, “kendall”, “spearman”))

золото:

  • x, y: вектори цифрових даних.
  • метод: метод, що використовується для обчислення кореляції між двома векторами. За замовчуванням — «Pearson».

Наприклад, припустимо, що ми маємо наступні два вектори в R:

 x <- c(2, 3, 3, 5, 6, 9, 14, 15, 19, 21, 22, 23)
y <- c(23, 24, 24, 23, 17, 28, 38, 34, 35, 39, 41, 43)

Перш ніж виконувати кореляційний тест між двома змінними, ми можемо створити швидку діаграму розсіювання, щоб візуалізувати їхній зв’язок:

 #create scatterplot
plot(x, y, pch= 16 )

Тест кореляції в R

Здається, існує позитивна кореляція між двома змінними. Тобто, коли один збільшується, другий має тенденцію до зростання.

Щоб перевірити, чи ця кореляція є статистично значущою, ми можемо виконати кореляційний тест:

 #perform correlation test between the two vectors
cor.test(x, y)

	Pearson's product-moment correlation

data: x and y
t = 7.8756, df = 10, p-value = 1.35e-05
alternative hypothesis: true correlation is not equal to 0
95 percent confidence interval:
 0.7575203 0.9799783
sample estimates:
      horn 
0.9279869

Коефіцієнт кореляції між двома векторами виявляється рівним 0,9279869 .

Статистика тесту дорівнює 7,8756 , а відповідне p-значення становить 1,35e-05 .

Оскільки це значення менше 0,05, ми маємо достатньо доказів, щоб стверджувати, що кореляція між двома змінними є статистично значущою.

Додаткові ресурси

Наступні посібники надають додаткову інформацію про коефіцієнти кореляції:

Вступ до коефіцієнта кореляції Пірсона
Що вважається «сильною» кореляцією?
П’ять гіпотез кореляції Пірсона

Додати коментар

Ваша e-mail адреса не оприлюднюватиметься. Обов’язкові поля позначені *