Stata에서 상관 행렬을 만드는 방법
통계에서 우리는 종종 두 변수 사이의 관계를 이해하려고 합니다. 예를 들어, 학생이 공부하는 시간과 시험에서 받는 성적 사이의 관계를 이해하고 싶을 수 있습니다.
이 관계를 정량화하는 한 가지 방법은 두 변수 사이의 선형 연관성을 측정 하는 Pearson 상관 계수를 사용하는 것입니다 . -1과 1 사이의 값을 가집니다. 여기서:
- -1은 두 변수 사이의 완벽한 음의 선형 상관 관계를 나타냅니다.
- 0은 두 변수 사이에 선형 상관관계가 없음을 나타냅니다.
- 1은 두 변수 사이의 완벽한 양의 선형 상관 관계를 나타냅니다.
상관 계수가 0에서 멀어질수록 두 변수 간의 관계가 더 강해집니다.
그러나 어떤 경우에는 여러 변수 쌍 간의 상관 관계를 이해하고 싶습니다. 이러한 경우 여러 쌍의 변수 조합 간의 상관 계수를 보여주는 정사각형 테이블인 상관 행렬을 만들 수 있습니다.
이 튜토리얼에서는 Stata에서 상관행렬을 생성하는 방법을 설명합니다.
Stata에서 상관 행렬을 만드는 방법
corr 명령은 Stata의 특정 데이터 세트에 대한 상관 행렬을 생성하는 데 사용할 수 있습니다.
이를 설명하기 위해 명령 상자에 다음을 입력하여 1980년 인구 조사 데이터를 Stata에 로드해 보겠습니다.
https://www.stata-press.com/data/r13/census13을 사용하세요.
그런 다음 명령 상자에 다음을 입력하여 데이터세트에 대한 빠른 요약을 얻을 수 있습니다.
요약
그러면 다음 테이블이 생성됩니다.
데이터세트에 9개의 서로 다른 변수가 포함되어 있음을 알 수 있습니다. 데이터 세트의 각 쌍별 변수 조합에 대한 상관 행렬을 생성하려면 명령 상자에 다음을 입력하면 됩니다.
코르
그러면 다음과 같은 상관 행렬이 생성됩니다.
표에 표시된 숫자는 각 쌍별 변수 조합에 대한 피어슨 상관 계수를 나타냅니다. 예를 들어 인구 와 주 간의 상관관계는 -0.0540 입니다. 이는 두 변수가 약간 음의 상관관계를 갖고 있음을 나타냅니다.
표의 대각선을 따라 있는 상관관계는 각각 1.0000입니다. 각 변수는 그 자체와 완벽하게 상관되어 있기 때문입니다.
corr 명령 뒤에 변수를 지정하여 데이터 세트에 있는 변수의 특정 하위 집합에 대해서만 상관 행렬을 생성할 수도 있습니다. 예를 들어 pop , medage 및 지역 변수에 대해서만 상관 행렬을 만드는 방법은 다음과 같습니다.
Corr Pop 미디어 지역
그러면 이 세 가지 변수에 대해서만 다음과 같은 상관 행렬이 생성됩니다.
star() 명령과 함께 pwcorr 명령( corr 과 동일한 결과 생성)을 사용하여 특정 유의 수준에서 통계적으로 유의미한 상관 계수 옆에 별표를 표시할 수도 있습니다.
예를 들어, 다음 코드는 인구 조사 데이터 세트의 각 변수에 대한 상관 행렬을 생성하고 α = 0.05에서 통계적으로 유의미한 상관 계수 옆에 별표를 표시합니다.
pwcorr, 별(.05)
표의 여러 상관 계수가 α = 0.05에서 통계적으로 유의미한지 확인하세요. α를 원하는 숫자로 설정할 수 있지만 일반적인 선택은 0.01, 0.05, 0.10입니다.
일반적으로 α 값이 낮을수록 상관 계수의 통계적 유의성은 낮아집니다. 예를 들어 α = 0.01로 설정했다고 가정합니다.
pwcorr, 별(.01)
상관 계수 옆에 별표가 얼마나 적은지 확인하십시오.