R에서 여러 변수 간의 상관 관계를 계산하는 방법
두 변수 사이의 관계를 정량화하는 한 가지 방법은 두 변수 사이의 선형 연관성을 측정하는 Pearson 상관 계수를 사용하는 것입니다 . 항상 -1과 1 사이의 값을 취합니다. 여기서:
- -1은 두 변수 사이의 완벽한 음의 선형 상관 관계를 나타냅니다.
- 0은 두 변수 사이에 선형 상관관계가 없음을 나타냅니다.
- 1은 두 변수 사이의 완벽한 양의 선형 상관 관계를 나타냅니다.
이 튜토리얼에서는 다음 데이터 프레임을 예로 사용하여 R에서 여러 변수 간의 상관 관계를 계산하는 방법을 설명합니다.
#create data frame
df <- data.frame(a <- c(2, 3, 3, 5, 6, 9, 14, 15, 19, 21, 22, 23),
b <- c(23, 24, 24, 23, 17, 28, 38, 34, 35, 39, 41, 43),
c <- c(13, 14, 14, 14, 15, 17, 18, 19, 22, 20, 24, 26),
d <- c(6, 6, 7, 8, 8, 8, 7, 6, 5, 3, 3, 2))
예시 1: 두 변수 사이의 상관관계
다음 코드는 데이터 프레임에 있는 두 변수 간의 상관 관계를 계산하는 방법을 보여줍니다.
cor(df$a, df$b) [1] 0.9279869
예시 2: 여러 변수 간의 상관관계
다음 코드는 데이터 프레임에 있는 세 변수 간의 상관 관계를 계산하는 방법을 보여줍니다.
cor(df[, c(' a ', ' b ', ' c ')])
ABC
a 1.0000000 0.9279869 0.9604329
b 0.9279869 1.0000000 0.8942139
c 0.9604329 0.8942139 1.0000000
결과를 해석하는 방법은 다음과 같습니다.
- a 와 b 사이의 상관관계는 0.9279869입니다.
- a 와 c 사이의 상관관계는 0.9604329입니다.
- b 와 c 사이의 상관관계는 0.8942139입니다.
예시 3: 모든 변수 간의 상관관계
다음 코드는 데이터 프레임의 모든 변수 간의 상관 관계를 계산하는 방법을 보여줍니다.
cor(df)
abcd
a 1.0000000 0.9279869 0.9604329 -0.7915488
b 0.9279869 1.0000000 0.8942139 -0.7917973
c 0.9604329 0.8942139 1.0000000 -0.8063549
d -0.7915488 -0.7917973 -0.8063549 1.0000000
예시 4: 숫자변수만의 상관관계
다음 코드는 데이터 프레임에서 숫자 변수 간의 상관 관계만 계산하는 방법을 보여줍니다.
cor(df[, unlist ( lapply (df, is. numeric ))]) abcd a 1.0000000 0.9279869 0.9604329 -0.7915488 b 0.9279869 1.0000000 0.8942139 -0.7917973 c 0.9604329 0.8942139 1.0000000 -0.8063549 d -0.7915488 -0.7917973 -0.8063549 1.0000000
예시 5: 상관 관계 시각화
다음 코드는 각 쌍별 변수 조합 간의 관계를 시각화할 수 있는 도표 유형인 쌍별 도표를 작성하는 방법을 보여줍니다.
#load psych package library(psych) #create pairs plot peers. panels (df)

추가 리소스
R에서 부분 상관 관계를 계산하는 방법
R에서 점-이중 상관 관계를 계산하는 방법
R에서 슬라이딩 상관관계를 계산하는 방법