Кореляції в stata: пірсон, спірмен і кендалл


У статистиці кореляція означає силу та напрямок зв’язку між двома змінними. Значення коефіцієнта кореляції може коливатися від -1 до 1, де -1 вказує на ідеальний негативний зв’язок, 0 вказує на відсутність зв’язку, а 1 вказує на ідеальний позитивний зв’язок.

Існує три поширених способи вимірювання кореляції:

Кореляція Пірсона: використовується для вимірювання кореляції між двома безперервними змінними. (наприклад, зріст і вага)

Кореляція Спірмена: використовується для вимірювання кореляції між двома класифікованими змінними. (наприклад, рейтинг результатів іспиту з математики учня порівняно з рейтингом результатів іспиту з природничих наук у класі)

Кореляція Кендалла: використовується, коли потрібно використовувати кореляцію Спірмена, але розмір вибірки невеликий і існує багато пов’язаних рейтингів.

Цей посібник пояснює, як знайти три типи кореляцій у Stata.

Завантаження даних

Для кожного з наступних прикладів ми будемо використовувати набір даних під назвою auto . Ви можете завантажити цей набір даних, ввівши наступне в поле команди:

використовуйте https://www.stata-press.com/data/r13/auto

Ми можемо отримати швидкий огляд набору даних, ввівши наступне в полі команди:

узагальнити

Узагальніть приклад команди в Stata

Ми бачимо, що всього в наборі даних 12 змінних.

Як знайти кореляцію Пірсона в Stata

Ми можемо знайти коефіцієнт кореляції Пірсона між змінними ваги та довжини за допомогою команди pwcorr :

довжина ваги pwcorr

Кореляція Пірсона в Stata

Коефіцієнт кореляції Пірсона між цими двома змінними становить 0,9460 . Щоб визначити, чи є цей коефіцієнт кореляції значущим, ми можемо знайти значення p за допомогою команди sig :

pwcorr маса довжина, сиг

Значення кореляції Пірсона в Stata

P-значення дорівнює 0,000 . Оскільки це значення менше 0,05, кореляція між цими двома змінними є статистично значущою.

Щоб знайти коефіцієнт кореляції Пірсона для кількох змінних, просто введіть список змінних після команди pwcorr :

pwcorr вага довжина водотоннажність, сиг

Кореляція Пірсона для кількох змінних у Stata

Ось як інтерпретувати результат:

  • Кореляція Пірсона між вагою та довжиною = 0,9460 | р-значення = 0,000
  • Кореляція Пірсона між вагою та об’ємом = 0,8949 | р-значення = 0,000
  • Кореляція Пірсона між переміщенням і довжиною = 0,8351 | р-значення = 0,000

Як знайти кореляцію Спірмена в Stata

Ми можемо знайти коефіцієнт кореляції Спірмена між змінними trunk і rep78 за допомогою команди spearman :

копія стовбура rep78

Кореляція Спірмена в Stata

Ось як інтерпретувати результат:

  • Кількість спостережень: це кількість попарних спостережень, які використовуються для обчислення коефіцієнта кореляції Спірмена. Оскільки для змінної rep78 були відсутні деякі значення, Stata використовувала лише 69 спостережень на пару (замість повних 74).
  • Ро Спірмена: це коефіцієнт кореляції Спірмена. У цьому випадку це -0,2235, що вказує на наявність негативної кореляції між двома змінними. Коли один збільшується, інший має тенденцію до зменшення.
  • Імовірність > |t| : це p-значення, пов’язане з перевіркою гіпотези. У цьому випадку p-значення становить 0,0649, що вказує на відсутність статистично значущої кореляції між двома змінними при α = 0,05.

Ми можемо знайти коефіцієнт кореляції Спірмена для кількох змінних, просто ввівши більше змінних після команди Спірмена . Ми можемо знайти коефіцієнт кореляції та відповідне значення p для кожної попарної кореляції за допомогою команди stats(rho p) :

spearman trunk rep78 gear_ratio, статистика (rho p)

Кореляція Спірмена для кількох змінних у Stata

Ось як інтерпретувати результат:

  • Кореляція Спірмена між тулубом і реп78 = -0,2235 | р-значення = 0,0649
  • Кореляція Спірмена між стовбуром і передавальним числом = -0,5187 | р-значення = 0,0000
  • Кореляція Спірмена між gear_ratio і rep78 = 0,4275 | р-значення = 0,0002

Як знайти кореляцію Кендалла в Stata

Ми можемо знайти коефіцієнт кореляції Кендалла між змінними trunk і rep78 за допомогою команди ktau :

ktau trunk rep78

Кореляція Кендалла в Stata

Ось як інтерпретувати результат:

  • Кількість спостережень: це кількість попарних спостережень, використаних для обчислення коефіцієнта кореляції Кендалла. Оскільки для змінної rep78 були відсутні деякі значення, Stata використовувала лише 69 спостережень на пару (замість повних 74).
  • Tau-b Кендалла: це коефіцієнт кореляції Кендалла між двома змінними. Зазвичай ми використовуємо це значення замість tau-a, тому що tau-b вносить коригування у випадку рівності. У цьому випадку tau-b = -0,1752, що вказує на негативну кореляцію між двома змінними.
  • Можливість > |z| : це p-значення, пов’язане з перевіркою гіпотези. У цьому випадку p-значення становить 0,0662, що вказує на відсутність статистично значущої кореляції між двома змінними при α = 0,05.

Ми можемо знайти коефіцієнт кореляції Кендалла для кількох змінних, просто ввівши більше змінних після команди ktau . Ми можемо знайти коефіцієнт кореляції та відповідне значення p для кожної попарної кореляції за допомогою команди stats(taub p) :

ktau trunk rep78 gear_ratio, статистика (taub p)

Тау Кендалла для кількох змінних у Stata

  • Кореляція Кендалла між тулубом і реп78 = -0,1752 | p-значення = 0,0662
  • Кореляція Кендалла між тулубом і передавальним числом = -0,3753 | р-значення = 0,0000
  • Кореляція Кендалла між gear_ratio і rep78 = 0,3206 | р-значення = 0,0006

Додати коментар

Ваша e-mail адреса не оприлюднюватиметься. Обов’язкові поля позначені *