Stata의 상관관계: pearson, spearman 및 kendall
통계에서 상관관계는 두 변수 사이의 관계의 강도와 방향을 나타냅니다. 상관 계수 값의 범위는 -1에서 1까지이며, -1은 완벽한 음의 관계를 나타내고, 0은 관계가 없음을 나타내고, 1은 완벽한 양의 관계를 나타냅니다.
상관관계를 측정하는 세 가지 일반적인 방법이 있습니다.
피어슨 상관관계: 두 연속 변수 간의 상관관계를 측정하는 데 사용됩니다. (예: 키와 몸무게)
Spearman 상관관계: 분류된 두 변수 간의 상관관계를 측정하는 데 사용됩니다. (예: 학생의 수학 시험 점수 순위와 수업 내 과학 시험 점수 순위)
Kendall’s Correlation: Spearman’s Correlation을 사용하고 싶지만 표본 크기가 작고 관련된 순위가 많은 경우에 사용됩니다.
이 튜토리얼에서는 Stata에서 세 가지 유형의 상관 관계를 찾는 방법을 설명합니다.
데이터 로드 중
다음 각 예에서는 auto 라는 데이터세트를 사용합니다. 명령 상자에 다음을 입력하여 이 데이터세트를 로드할 수 있습니다.
https://www.stata-press.com/data/r13/auto를 사용하세요.
명령 상자에 다음을 입력하면 데이터 세트에 대한 간략한 개요를 볼 수 있습니다.
요약
데이터 세트에는 총 12개의 변수가 있음을 알 수 있습니다.
Stata에서 Pearson 상관 관계를 찾는 방법
pwcorr 명령을 사용하여 무게 와 길이 변수 간의 Pearson 상관 계수를 찾을 수 있습니다.
Pwcorr 무게 길이
이 두 변수 사이의 Pearson 상관 계수는 0.9460 입니다. 이 상관 계수가 중요한지 확인하려면 sig 명령을 사용하여 p 값을 찾을 수 있습니다.
pwcorr 무게 길이, sig
p-값은 0.000 입니다. 이는 0.05보다 작으므로 두 변수 사이의 상관관계는 통계적으로 유의미합니다.
여러 변수에 대한 Pearson 상관 계수를 찾으려면 pwcorr 명령 뒤에 변수 목록을 입력하면 됩니다.
pwcorr 중량 길이 변위, sig
결과를 해석하는 방법은 다음과 같습니다.
- 무게와 길이 사이의 피어슨 상관관계 = 0.9460 | p-값 = 0.000
- 무게와 변위 사이의 피어슨 상관관계 = 0.8949 | p-값 = 0.000
- 변위와 길이 사이의 피어슨 상관관계 = 0.8351 | p-값 = 0.000
Stata에서 Spearman의 상관 관계를 찾는 방법
Spearman 명령을 사용하여 변수 트렁크 와 rep78 사이의 Spearman 상관 계수를 찾을 수 있습니다.
랜스 트렁크 담당자 78
결과를 해석하는 방법은 다음과 같습니다.
- 관측치 수: Spearman 상관 계수를 계산하는 데 사용되는 쌍별 관측치 수입니다. rep78 변수에 대한 일부 값이 누락되었기 때문에 Stata는 쌍당 (전체 74개가 아닌) 69개의 관측값만 사용했습니다.
- Spearman’s Rho: Spearman 상관계수입니다. 이 경우 -0.2235로 두 변수 사이에 음의 상관관계가 있음을 나타냅니다. 하나가 증가하면 다른 하나는 감소하는 경향이 있습니다.
- 문제 > |t| : 가설 검정과 관련된 p-값입니다. 이 경우 p-값은 0.0649로 α = 0.05에서 두 변수 간에 통계적으로 유의한 상관관계가 없음을 나타냅니다.
Spearman 명령 뒤에 더 많은 변수를 입력하면 여러 변수에 대한 Spearman 상관 계수를 찾을 수 있습니다. stats(rho p) 명령을 사용하여 각 쌍별 상관 관계에 대한 상관 계수와 해당 p-값을 찾을 수 있습니다.
스피어맨 트렁크 담당자78 gear_ratio, 통계(rho p)
결과를 해석하는 방법은 다음과 같습니다.
- 트렁크와 담당자 사이의 Spearman 상관 관계 = -0.2235 | p-값 = 0.0649
- 트렁크와 gear_ratio 사이의 Spearman 상관 관계 = -0.5187 | p-값 = 0.0000
- gear_ratio와 rep78 사이의 Spearman 상관 관계 = 0.4275 | p-값 = 0.0002
Stata에서 Kendall의 상관 관계를 찾는 방법
ktau 명령을 사용하여 트렁크 와 rep78 변수 사이의 Kendall 상관 계수를 찾을 수 있습니다.
ktau트렁크렙78
결과를 해석하는 방법은 다음과 같습니다.
- 관측치 수: Kendall 상관 계수를 계산하는 데 사용되는 쌍별 관측치 수입니다. rep78 변수에 대한 일부 값이 누락되었기 때문에 Stata는 쌍당 (전체 74개가 아닌) 69개의 관측값만 사용했습니다.
- Kendall의 Tau-b: 두 변수 사이의 Kendall의 상관 계수입니다. tau-b는 동점인 경우 조정을 하기 때문에 일반적으로 tau-a 대신 이 값을 사용합니다. 이 경우 tau-b = -0.1752로 두 변수 사이에 음의 상관관계가 있음을 나타냅니다.
- 문제 > |z| : 가설 검정과 관련된 p-값입니다. 이 경우 p-값은 0.0662로 α = 0.05에서 두 변수 사이에 통계적으로 유의한 상관관계가 없음을 나타냅니다.
ktau 명령 뒤에 더 많은 변수를 입력하면 여러 변수에 대한 Kendall의 상관 계수를 찾을 수 있습니다. stats(taub p) 명령을 사용하여 각 쌍별 상관 관계에 대한 상관 계수와 해당 p-값을 찾을 수 있습니다.
ktau 트렁크 담당자78 gear_ratio, stats (taub p)
- 트렁크와 담당자78 사이의 Kendall 상관관계 = -0.1752 | p-값 = 0.0662
- 트렁크와 gear_ratio 사이의 Kendall의 상관 관계 = -0.3753 | p-값 = 0.0000
- gear_ratio와 rep78 사이의 Kendall 상관관계 = 0.3206 | p-값 = 0.0006