Как рассчитать корреляцию в sas (с примерами)
Один из способов количественной оценки связи между двумя переменными – использовать коэффициент корреляции Пирсона , который измеряет линейную связь между двумя переменными .
Он всегда принимает значение от -1 до 1, где:
- -1 указывает на совершенно отрицательную линейную корреляцию между двумя переменными.
- 0 указывает на отсутствие линейной корреляции между двумя переменными.
- 1 указывает на совершенно положительную линейную корреляцию между двумя переменными.
Чем дальше коэффициент корреляции от нуля, тем сильнее связь между двумя переменными.
В следующих примерах показано, как использовать proc corr в SAS для расчета коэффициента корреляции между переменными в интегрированном наборе данных SAS под названием Fish , который содержит различные измерения для 159 различных рыб, пойманных в озере в Финляндии.
Мы можем использовать proc print для отображения первых 10 наблюдений этого набора данных:
/*view first 10 observations from Fish dataset*/ proc print data =sashelp.Fish( obs = 10 ); run ;
Пример 1: Корреляция между двумя переменными
Мы можем использовать следующий код для расчета коэффициента корреляции Пирсона между переменными Height и Width:
/*calculate correlation coefficient between Height and Width*/ proc corr data =sashelp.fish; var HeightWidth; run ;
В первой таблице отображается сводная статистика по высоте и ширине.
Во второй таблице показан коэффициент корреляции Пирсона между двумя переменными, включая значение p , которое говорит нам, является ли корреляция статистически значимой.
По результату мы видим:
- Коэффициент корреляции Пирсона: 0,79288.
- P-значение: <0,0001
Это говорит нам о том, что существует сильная положительная корреляция между высотой и шириной и что корреляция статистически значима, поскольку значение p меньше α = 0,05.
Связанный: Что считается «сильной» корреляцией?
Пример 2: Корреляция между всеми переменными
Мы можем использовать следующий код для расчета коэффициента корреляции Пирсона между всеми парными комбинациями переменных в наборе данных:
/*calculate correlation coefficient between all pairwise combinations of variables*/ proc corr data =sashelp.fish; run;
В результате отображается корреляционная матрица , которая содержит коэффициент корреляции Пирсона и соответствующие значения p для каждой парной комбинации числовых переменных в наборе данных.
Например:
- Коэффициент корреляции Пирсона между весом и длиной1 составляет 0,91644.
- Коэффициент корреляции Пирсона между весом и длиной2 составляет 0,91937.
- Коэффициент корреляции Пирсона между весом и длиной3 составляет 0,92447.
И так далее.
Пример 3. Визуализация корреляции с помощью диаграммы рассеяния
Мы также можем использовать функцию графиков для создания диаграммы рассеяния для визуализации корреляции между двумя переменными:
/*visualize correlation between Height and Width*/ proc corr data =sashelp.fish plots =scatter( nvar =all);; var HeightWidth; run;
На графике мы видим сильную положительную корреляцию между высотой и шириной. С увеличением высоты ширина также имеет тенденцию к увеличению.
В верхнем левом углу графика мы также можем увидеть общее количество использованных наблюдений, коэффициент корреляции и p-значение коэффициента корреляции.
Дополнительные ресурсы
В следующих руководствах объясняется, как выполнять другие распространенные операции в SAS:
Как создать таблицы частот в SAS
Как рассчитать описательную статистику в SAS