Корреляции в стате: пирсон, спирмен и кендалл
В статистике корреляция означает силу и направление связи между двумя переменными. Значение коэффициента корреляции может варьироваться от -1 до 1, где -1 указывает на идеальную отрицательную связь, 0 указывает на отсутствие связи и 1 указывает на идеальную положительную связь.
Существует три распространенных способа измерения корреляции:
Корреляция Пирсона: используется для измерения корреляции между двумя непрерывными переменными. (например, рост и вес)
Корреляция Спирмена: используется для измерения корреляции между двумя классифицированными переменными. (например, рейтинг учащегося на экзамене по математике по сравнению с рейтингом его балла на экзамене по естественным наукам в классе)
Корреляция Кендалла: используется, когда вы хотите использовать корреляцию Спирмена, но размер выборки невелик и существует множество связанных рейтингов.
В этом руководстве объясняется, как найти три типа корреляций в Stata.
Загрузка данных
Для каждого из следующих примеров мы будем использовать набор данных с именем auto . Вы можете загрузить этот набор данных, введя следующее в поле «Команда»:
используйте https://www.stata-press.com/data/r13/auto
Мы можем получить быстрый обзор набора данных, введя следующее в поле команды:
обобщить
Мы видим, что всего в наборе данных 12 переменных.
Как найти корреляцию Пирсона в Stata
Мы можем найти коэффициент корреляции Пирсона между переменными веса и длины с помощью команды pwcorr :
pwcorr вес длина
Коэффициент корреляции Пирсона между этими двумя переменными составляет 0,9460 . Чтобы определить, является ли этот коэффициент корреляции значимым, мы можем найти значение p с помощью команды sig :
pwcorr вес длина, сиг
Значение p равно 0,000 . Поскольку это значение меньше 0,05, корреляция между этими двумя переменными статистически значима.
Чтобы найти коэффициент корреляции Пирсона для нескольких переменных, просто введите список переменных после команды pwcorr :
pwcorr вес длина водоизмещение, сиг
Вот как интерпретировать результат:
- Корреляция Пирсона между весом и длиной = 0,9460 | p-значение = 0,000
- Корреляция Пирсона между весом и водоизмещением = 0,8949 | p-значение = 0,000
- Корреляция Пирсона между перемещением и длиной = 0,8351 | p-значение = 0,000
Как найти корреляцию Спирмена в Stata
Мы можем найти коэффициент корреляции Спирмена между переменными ствол и Rep78 с помощью команды Спирмена :
копье ствола Rep78
Вот как интерпретировать результат:
- Количество наблюдений: это количество парных наблюдений, используемых для расчета коэффициента корреляции Спирмена. Поскольку для переменной Rep78 отсутствовали некоторые значения, Stata использовала только 69 наблюдений на пару (вместо полных 74).
- Ро Спирмена: это коэффициент корреляции Спирмена. В данном случае это -0,2235, что указывает на наличие отрицательной корреляции между двумя переменными. По мере увеличения одного другое имеет тенденцию к уменьшению.
- Вероятность > |t| : это значение p, связанное с проверкой гипотезы. В этом случае значение p составляет 0,0649, что указывает на отсутствие статистически значимой корреляции между двумя переменными при α = 0,05.
Мы можем найти коэффициент корреляции Спирмена для нескольких переменных, просто введя больше переменных после команды Спирмена . Мы можем найти коэффициент корреляции и соответствующее значение p для каждой парной корреляции с помощью команды stats(rho p) :
копейщик багажник Rep78 gear_ratio, статистика (rho p)
Вот как интерпретировать результат:
- Корреляция Спирмена между туловищем и повторением78 = -0,2235 | р-значение = 0,0649
- Корреляция Спирмена между стволом и gear_ratio = -0,5187 | p-значение = 0,0000
- Корреляция Спирмена между gear_ratio и Rep78 = 0,4275 | p-значение = 0,0002
Как найти корреляцию Кендалла в Stata
Мы можем найти коэффициент корреляции Кендалла между переменными магистрали и Rep78 , используя команду ktau :
ктау багажник реп78
Вот как интерпретировать результат:
- Количество наблюдений: это количество парных наблюдений, используемых для расчета коэффициента корреляции Кендалла. Поскольку для переменной Rep78 отсутствовали некоторые значения, Stata использовала только 69 наблюдений на пару (вместо полных 74).
- Тау-b Кендалла: это коэффициент корреляции Кендалла между двумя переменными. Обычно мы используем это значение вместо tau-a, потому что tau-b вносит коррективы в случае ничьей. В данном случае tau-b = -0,1752, что указывает на отрицательную корреляцию между двумя переменными.
- Вероятность > |z| : это значение p, связанное с проверкой гипотезы. В этом случае значение p составляет 0,0662, что указывает на отсутствие статистически значимой корреляции между двумя переменными при α = 0,05.
Мы можем найти коэффициент корреляции Кендалла для нескольких переменных, просто введя дополнительные переменные после команды ktau . Мы можем найти коэффициент корреляции и соответствующее значение p для каждой парной корреляции с помощью команды stats(taub p) :
ктау ствол Rep78 gear_ratio, статистика (тауб п)
- Корреляция Кендалла между туловищем и повторением78 = -0,1752 | p-значение = 0,0662
- Корреляция Кендалла между туловищем и gear_ratio = -0,3753 | p-значение = 0,0000
- Корреляция Кендалла между gear_ratio и Rep78 = 0,3206 | p-значение = 0,0006