Sas에서 상관 행렬을 만드는 방법(예제 포함)
상관행렬은 데이터 세트에 포함된 변수 간의 상관계수를 보여주는 정사각형 테이블입니다.
이는 데이터 세트의 변수 간에 존재하는 선형 관계의 강도를 빠르게 이해할 수 있는 방법을 제공합니다.
SAS에서 PROC CORR 문을 사용하여 특정 데이터 세트에 대한 상관 행렬을 생성할 수 있습니다.
/*create correlation matrix using all numeric variables in my_data*/
proc corr data =my_data;
run ;
기본적으로 데이터 세트의 모든 숫자 변수 간의 상관 계수를 표시하는 행렬이 생성됩니다.
상관 행렬에 특정 변수만 포함하려면 VAR 문을 사용할 수 있습니다.
/*create correlation matrix using only var1, var2 and var3 in my_data*/
proc corr data =my_data;
var var1, var2, var3;
run ;
다음 예에서는 SAS에서 상관 행렬을 생성하는 방법을 보여줍니다.
예: SAS에서 상관 행렬 생성
SAS에 다양한 농구 선수에 대한 정보가 포함된 다음과 같은 데이터 세트가 있다고 가정합니다.
/*create dataset*/
data my_data;
input team $ assists rebounds points;
datalines ;
A 4 12 22
A 5 14 24
A 5 13 26
A 6 7 26
B 7 8 29
B 8 8 32
B 8 9 20
B 10 13 14
;
run ;
/*view dataset*/
proc print data =my_data;
PROC CORR 문을 사용하여 기본적으로 데이터 세트의 모든 숫자 변수를 포함하는 상관 행렬을 만들 수 있습니다.
/*create correlation matrix using all numeric variables in my_data*/
proc corr data =my_data;
run ;
출력에는 상관 행렬과 함께 첫 번째 테이블의 숫자 변수에 대한 요약 통계가 표시됩니다.
“팀” 변수는 수치 변수가 아니기 때문에 상관 행렬에 포함되지 않았습니다.
상관 행렬 값을 해석하는 방법은 다음과 같습니다.
(1) 어시스트 와 리바운드 간의 피어슨 상관계수(r)는 -0.24486 입니다. 해당 p-값은 0.5589 입니다.
r이 0보다 작기 때문에 이는 두 변수 사이에 음의 선형 연관성이 있음을 나타냅니다. 그러나 p-값이 0.05 이상이므로 이 상관관계는 통계적으로 유의하지 않습니다.
(2) 어시스트 와 포인트 간의 피어슨 상관계수(r)는 -0.32957 입니다. 해당 p-값은 0.4253 입니다.
이 두 변수 사이에는 음의 선형 연관성이 있지만 통계적으로 유의하지는 않습니다.
(3) 리바운드 와 포인트 사이의 피어슨 상관 계수(r)는 -0.52209 입니다. 해당 p-값은 0.1844 입니다.
이 두 변수 사이에는 음의 선형 연관성이 있지만 통계적으로 유의하지는 않습니다.
VAR 문을 사용하여 상관 행렬에 특정 숫자 변수만 포함할 수도 있습니다.
/*create correlation matrix using only assists and rebounds variables*/
proc corr data =my_data;
var assists rebounds;
run ;
이 상관관계 매트릭스에는 어시스트 및 리바운드 변수만 포함되었습니다.
추가 리소스
다음 튜토리얼에서는 SAS에서 다른 일반적인 작업을 수행하는 방법을 설명합니다.
SAS에서 산점도 행렬을 만드는 방법
SAS에서 피벗 테이블을 만드는 방법
SAS에서 VIF(Variance Inflation Factor)를 계산하는 방법