Як обчислити кореляцію в sas (з прикладами)


Одним із способів кількісного визначення зв’язку між двома змінними є використання коефіцієнта кореляції Пірсона , який вимірює лінійний зв’язок між двома змінними .

Він завжди приймає значення від -1 до 1, де:

  • -1 вказує на абсолютно негативну лінійну кореляцію між двома змінними
  • 0 означає відсутність лінійної кореляції між двома змінними
  • 1 вказує на абсолютно позитивну лінійну кореляцію між двома змінними

Чим далі коефіцієнт кореляції від нуля, тим сильніший зв’язок між двома змінними.

У наступних прикладах показано, як використовувати proc corr у SAS для обчислення коефіцієнта кореляції між змінними в інтегрованому наборі даних SAS під назвою Fish , який містить різні вимірювання для 159 різних риб, виловлених в озері у Фінляндії.

Ми можемо використовувати proc print для відображення перших 10 спостережень цього набору даних:

 /*view first 10 observations from Fish dataset*/
proc print data =sashelp.Fish( obs = 10 );

run ;

Приклад 1: Кореляція між двома змінними

Ми можемо використати такий код, щоб обчислити коефіцієнт кореляції Пірсона між змінними Height і Width:

 /*calculate correlation coefficient between Height and Width*/
proc corr data =sashelp.fish;
	var HeightWidth;

run ;

Перша таблиця відображає підсумкову статистику для висоти та ширини.

Друга таблиця відображає коефіцієнт кореляції Пірсона між двома змінними, включаючи значення p , яке повідомляє нам, чи є кореляція статистично значущою.

З результату ми бачимо:

  • Коефіцієнт кореляції Пірсона: 0,79288
  • Р-значення: <0,0001

Це говорить нам про те, що існує сильна позитивна кореляція між висотою та шириною, і що кореляція є статистично значущою, оскільки p-значення менше α = 0,05.

За темою: що вважається «сильною» кореляцією?

Приклад 2: Кореляція між усіма змінними

Ми можемо використати такий код, щоб обчислити коефіцієнт кореляції Пірсона між усіма попарними комбінаціями змінних у наборі даних:

 /*calculate correlation coefficient between all pairwise combinations of variables*/
proc corr data =sashelp.fish;

run;

кореляційна матриця в SAS

Результат відображає кореляційну матрицю , яка містить коефіцієнт кореляції Пірсона та відповідні p-значення для кожної попарної комбінації числових змінних у наборі даних.

Наприклад:

  • Коефіцієнт кореляції Пірсона між вагою та довжиною1 становить 0,91644.
  • Коефіцієнт кореляції Пірсона між вагою та довжиною2 становить 0,91937.
  • Коефіцієнт кореляції Пірсона між вагою та довжиною3 становить 0,92447.

І так далі.

Приклад 3: Візуалізуйте кореляцію за допомогою діаграми розсіювання

Ми також можемо використовувати функцію plots для створення діаграми розсіювання для візуалізації кореляції між двома змінними:

 /*visualize correlation between Height and Width*/
proc corr data =sashelp.fish plots =scatter( nvar =all);;
	var HeightWidth;

run; 

На графіку ми бачимо сильну позитивну кореляцію між висотою та шириною. Зі збільшенням висоти ширина також має тенденцію до збільшення.

У верхньому лівому куті графіка ми також можемо побачити загальну кількість використаних спостережень, коефіцієнт кореляції та p-значення коефіцієнта кореляції.

Додаткові ресурси

У наступних посібниках пояснюється, як виконувати інші типові операції в SAS:

Як створити частотні таблиці в SAS
Як розрахувати описову статистику в SAS

Додати коментар

Ваша e-mail адреса не оприлюднюватиметься. Обов’язкові поля позначені *