Как рассчитать корреляцию в sas (с примерами)


Один из способов количественной оценки связи между двумя переменными – использовать коэффициент корреляции Пирсона , который измеряет линейную связь между двумя переменными .

Он всегда принимает значение от -1 до 1, где:

  • -1 указывает на совершенно отрицательную линейную корреляцию между двумя переменными.
  • 0 указывает на отсутствие линейной корреляции между двумя переменными.
  • 1 указывает на совершенно положительную линейную корреляцию между двумя переменными.

Чем дальше коэффициент корреляции от нуля, тем сильнее связь между двумя переменными.

В следующих примерах показано, как использовать proc corr в SAS для расчета коэффициента корреляции между переменными в интегрированном наборе данных SAS под названием Fish , который содержит различные измерения для 159 различных рыб, пойманных в озере в Финляндии.

Мы можем использовать proc print для отображения первых 10 наблюдений этого набора данных:

 /*view first 10 observations from Fish dataset*/
proc print data =sashelp.Fish( obs = 10 );

run ;

Пример 1: Корреляция между двумя переменными

Мы можем использовать следующий код для расчета коэффициента корреляции Пирсона между переменными Height и Width:

 /*calculate correlation coefficient between Height and Width*/
proc corr data =sashelp.fish;
	var HeightWidth;

run ;

В первой таблице отображается сводная статистика по высоте и ширине.

Во второй таблице показан коэффициент корреляции Пирсона между двумя переменными, включая значение p , которое говорит нам, является ли корреляция статистически значимой.

По результату мы видим:

  • Коэффициент корреляции Пирсона: 0,79288.
  • P-значение: <0,0001

Это говорит нам о том, что существует сильная положительная корреляция между высотой и шириной и что корреляция статистически значима, поскольку значение p меньше α = 0,05.

Связанный: Что считается «сильной» корреляцией?

Пример 2: Корреляция между всеми переменными

Мы можем использовать следующий код для расчета коэффициента корреляции Пирсона между всеми парными комбинациями переменных в наборе данных:

 /*calculate correlation coefficient between all pairwise combinations of variables*/
proc corr data =sashelp.fish;

run;

корреляционная матрица в SAS

В результате отображается корреляционная матрица , которая содержит коэффициент корреляции Пирсона и соответствующие значения p для каждой парной комбинации числовых переменных в наборе данных.

Например:

  • Коэффициент корреляции Пирсона между весом и длиной1 составляет 0,91644.
  • Коэффициент корреляции Пирсона между весом и длиной2 составляет 0,91937.
  • Коэффициент корреляции Пирсона между весом и длиной3 составляет 0,92447.

И так далее.

Пример 3. Визуализация корреляции с помощью диаграммы рассеяния

Мы также можем использовать функцию графиков для создания диаграммы рассеяния для визуализации корреляции между двумя переменными:

 /*visualize correlation between Height and Width*/
proc corr data =sashelp.fish plots =scatter( nvar =all);;
	var HeightWidth;

run; 

На графике мы видим сильную положительную корреляцию между высотой и шириной. С увеличением высоты ширина также имеет тенденцию к увеличению.

В верхнем левом углу графика мы также можем увидеть общее количество использованных наблюдений, коэффициент корреляции и p-значение коэффициента корреляции.

Дополнительные ресурсы

В следующих руководствах объясняется, как выполнять другие распространенные операции в SAS:

Как создать таблицы частот в SAS
Как рассчитать описательную статистику в SAS

Добавить комментарий

Ваш адрес email не будет опубликован. Обязательные поля помечены *