R에서 상관 테스트를 수행하는 방법(예제 포함)
두 변수 사이의 관계를 정량화하는 한 가지 방법은 두 변수 사이의 선형 연관성을 측정하는 Pearson 상관 계수를 사용하는 것입니다 .
항상 -1과 1 사이의 값을 취합니다. 여기서:
- -1은 두 변수 사이의 완벽한 음의 선형 상관 관계를 나타냅니다.
- 0은 두 변수 사이에 선형 상관관계가 없음을 나타냅니다.
- 1은 두 변수 사이의 완벽한 양의 선형 상관 관계를 나타냅니다.
상관 계수가 통계적으로 유의한지 여부를 확인하려면 해당하는 t-점수와 p-값을 계산하면 됩니다.
상관계수(r)의 t-점수를 계산하는 공식은 다음과 같습니다.
t = r * √ n-2 / √ 1-r 2
p-값은 자유도가 n-2인 t-분포에 해당하는 양측 p-값으로 계산됩니다.
예: R의 상관관계 테스트
두 변수 사이의 상관 계수가 통계적으로 유의한지 여부를 확인하려면 다음 구문을 사용하여 R에서 상관 테스트를 수행할 수 있습니다.
cor.test(x, y, method=c(“pearson”, “kendall”, “spearman”))
금:
- x, y: 디지털 데이터 벡터.
- 방법(method): 두 벡터 간의 상관관계를 계산하는 데 사용되는 방법입니다. 기본값은 “피어슨”입니다.
예를 들어 R에 다음 두 벡터가 있다고 가정합니다.
x <- c(2, 3, 3, 5, 6, 9, 14, 15, 19, 21, 22, 23) y <- c(23, 24, 24, 23, 17, 28, 38, 34, 35, 39, 41, 43)
두 변수 간의 상관 관계 테스트를 수행하기 전에 빠른 산점도를 만들어 관계를 시각화할 수 있습니다.
#create scatterplot plot(x, y, pch= 16 )
두 변수 사이에는 양의 상관관계가 있는 것으로 보입니다. 즉, 하나가 증가하면 다른 하나도 증가하는 경향이 있습니다.
이 상관관계가 통계적으로 유의한지 확인하기 위해 상관관계 테스트를 수행할 수 있습니다.
#perform correlation test between the two vectors
cor.test(x, y)
Pearson's product-moment correlation
data: x and y
t = 7.8756, df = 10, p-value = 1.35e-05
alternative hypothesis: true correlation is not equal to 0
95 percent confidence interval:
0.7575203 0.9799783
sample estimates:
horn
0.9279869
두 벡터 사이의 상관계수는 0.9279869 로 나타났습니다.
검정 통계량은 7.8756 이고 해당 p-값은 1.35e-05 입니다.
이 값은 0.05보다 작으므로 두 변수 사이의 상관관계가 통계적으로 유의하다고 말할 수 있는 충분한 증거가 있습니다.
추가 리소스
다음 튜토리얼에서는 상관 계수에 대한 추가 정보를 제공합니다.
피어슨 상관 계수 소개
“강한” 상관관계로 간주되는 것은 무엇입니까?
피어슨의 상관관계에 대한 다섯 가지 가설