Sas에서 상관관계를 계산하는 방법(예제 포함)
두 변수 사이의 관계를 정량화하는 한 가지 방법은 두 변수 사이의 선형 연관성을 측정하는 Pearson 상관 계수를 사용하는 것입니다 .
항상 -1과 1 사이의 값을 취합니다. 여기서:
- -1은 두 변수 사이의 완벽한 음의 선형 상관 관계를 나타냅니다.
- 0은 두 변수 사이에 선형 상관관계가 없음을 나타냅니다.
- 1은 두 변수 사이의 완벽한 양의 선형 상관 관계를 나타냅니다.
상관 계수가 0에서 멀어질수록 두 변수 간의 관계가 더 강해집니다.
다음 예는 SAS에서 proc corr을 사용하여 Fish 라는 SAS 통합 데이터 세트의 변수 간 상관 계수를 계산하는 방법을 보여줍니다. 여기에는 핀란드의 한 호수에서 잡힌 159종의 다양한 물고기에 대한 다양한 측정값이 포함되어 있습니다.
proc print를 사용하여 이 데이터세트의 처음 10개 관측치를 표시할 수 있습니다.
/*view first 10 observations from Fish dataset*/ proc print data =sashelp.Fish( obs = 10 ); run ;
예시 1: 두 변수 사이의 상관관계
다음 코드를 사용하여 Height와 Width 변수 사이의 Pearson 상관 계수를 계산할 수 있습니다.
/*calculate correlation coefficient between Height and Width*/ proc corr data =sashelp.fish; var HeightWidth; run ;
첫 번째 테이블에는 높이와 너비에 대한 요약 통계가 표시됩니다.
두 번째 표에는 상관 관계가 통계적으로 유의한지 여부를 알려주는 p-값을 포함하여 두 변수 간의 Pearson 상관 계수가 표시됩니다.
결과에서 우리는 다음을 볼 수 있습니다:
- 피어슨 상관 계수: 0.79288
- P-값: <0.0001
이는 높이와 너비 사이에 강한 양의 상관관계가 있고 p-값이 α = 0.05보다 작기 때문에 상관관계가 통계적으로 유의하다는 것을 말해줍니다.
관련 항목: “강한” 상관 관계로 간주되는 것은 무엇입니까?
예시 2: 모든 변수 간의 상관관계
다음 코드를 사용하여 데이터 세트의 모든 쌍별 변수 조합 간의 Pearson 상관 계수를 계산할 수 있습니다.
/*calculate correlation coefficient between all pairwise combinations of variables*/ proc corr data =sashelp.fish; run;
결과에는 Pearson 상관 계수와 데이터세트의 각 수치 변수 쌍별 조합에 대한 해당 p-값이 포함된 상관 행렬이 표시됩니다.
예를 들어:
- 무게와 길이1 사이의 피어슨 상관 계수는 0.91644입니다.
- 무게와 길이2 사이의 피어슨 상관 계수는 0.91937입니다.
- 무게와 길이3 사이의 피어슨 상관 계수는 0.92447입니다.
등등.
예 3: 산점도를 사용하여 상관관계 시각화
또한 두 변수 간의 상관 관계를 시각화하기 위해 플롯 함수를 사용하여 산점도를 생성할 수도 있습니다.
/*visualize correlation between Height and Width*/ proc corr data =sashelp.fish plots =scatter( nvar =all);; var HeightWidth; run;
그래프에서 높이와 너비 사이에 강한 양의 상관관계가 있음을 볼 수 있습니다. 높이가 증가함에 따라 너비도 증가하는 경향이 있습니다.
그래프의 왼쪽 상단에서는 사용된 전체 관측치, 상관 계수 및 상관 계수의 p-값도 볼 수 있습니다.
추가 리소스
다음 튜토리얼에서는 SAS에서 다른 일반적인 작업을 수행하는 방법을 설명합니다.