R에서 상관 행렬을 만드는 방법(4가지 예)


상관행렬은 데이터 세트에 포함된 변수 간의 상관계수를 보여주는 정사각형 테이블입니다.

이는 데이터 세트의 변수 간에 존재하는 선형 관계의 강도를 빠르게 이해할 수 있는 방법을 제공합니다.

R에서 상관 행렬을 생성하는 네 가지 일반적인 방법이 있습니다.

방법 1: cor 함수(간단한 상관 계수 행렬 얻기)

 cor(df)

방법 2: rcorr 함수(상관 계수의 p-값을 얻기 위해)

 library (Hmisc)

rcorr( as.matrix (df))

방법 3: corrplot 함수(상관 행렬 시각화)

 library (corplot)

corrplot(cor(df))

방법 4: ggcorrplot 함수(상관 행렬 시각화)

 library (ggcorrplot)

ggcorrplot(cor(df))

다음 예에서는 R의 다음 데이터 프레임과 함께 각 메서드를 사용하는 방법을 보여줍니다.

 #create data frame
df <- data. frame (assists=c(4, 5, 5, 6, 7, 8, 8, 10),
                 rebounds=c(12, 14, 13, 7, 8, 8, 9, 13),
                 points=c(22, 24, 26, 26, 29, 32, 20, 14))

#view data frame
df

  assists rebound points
1 4 12 22
2 5 14 24
3 5 13 26
4 6 7 26
5 7 8 29
6 8 8 32
7 8 9 20
8 10 13 14

예시 1: cor 함수

R 기본 cor() 함수를 사용하여 데이터 프레임의 각 변수 사이의 상관 계수를 보여주는 상관 행렬을 만들 수 있습니다.

 #create correlation matrix
cor(df)

            assists rebound points
assists 1.0000000 -0.2448608 -0.3295730
rebounds -0.2448608 1.0000000 -0.5220917
points -0.3295730 -0.5220917 1.0000000

표의 대각선에 있는 상관 계수는 각 변수가 그 자체와 완벽하게 상관되어 있기 때문에 모두 1과 같습니다.

다른 모든 상관 계수는 다양한 쌍별 변수 조합 간의 상관 관계를 나타냅니다. 예를 들어:

  • 어시스트와 리바운드의 상관계수는 -0.245 입니다.
  • 어시스트와 포인트 사이의 상관계수는 -0.330 입니다.
  • 리바운드와 포인트 사이의 상관계수는 -0.522 입니다.

예제 2: rcorr 함수

R의 Hmisc 패키지에 있는 rcorr() 함수를 사용하여 데이터 프레임의 각 변수 사이의 상관 계수를 보여주는 상관 행렬을 만들 수 있습니다.

 library (Hmisc)

#create matrix of correlation coefficients and p-values
rcorr( as.matrix (df))

         assists rebound points
assists 1.00 -0.24 -0.33
rebounds -0.24 1.00 -0.52
points -0.33 -0.52 1.00

n=8 

P
         assists rebound points
assists 0.5589 0.4253
rebounds 0.5589 0.1844
points 0.4253 0.1844

첫 번째 행렬은 변수 간의 상관 계수를 표시하고 두 번째 행렬은 해당 p-값을 표시합니다.

예를 들어 어시스트와 리바운드 간의 상관계수는 -0.24 이고 이 상관계수의 p-값은 0.5589 입니다.

이는 두 변수 사이의 상관관계가 음의 상관관계를 갖고 있음을 말하지만, p값이 0.05 이상이므로 통계적으로 유의미한 상관관계는 아닙니다.

예제 3: corrplot 함수

R의 corrplot 패키지에 있는 corrplot() 함수를 사용하여 상관 행렬을 시각화할 수 있습니다.

 library (corplot)

#visualize correlation matrix
corrplot(cor(df))

상관 행렬에 있는 원의 색상과 크기는 각 변수 간의 상관 관계를 시각화하는 데 도움이 됩니다.

예를 들어, 어시스트와 리바운드 변수가 교차하는 원은 작고 연한 빨간색으로, 이는 상관관계가 약하고 음의 상관관계가 있음을 나타냅니다.

예제 4: corrplot 함수

R의 ggcorrplot 패키지에 있는 ggcorrplot() 함수를 사용하여 상관 행렬을 시각화할 수 있습니다.

 library (ggcorrplot)

#visualize correlation matrix
ggcorrplot(cor(df))

상관 행렬의 사각형 색상은 각 변수 간의 상관 관계를 시각화하는 데 도움이 됩니다.

추가 리소스

다음 튜토리얼에서는 R에서 다른 일반적인 작업을 수행하는 방법을 설명합니다.

R에서 Spearman 순위 상관 관계를 계산하는 방법
R에서 부분 상관 관계를 계산하는 방법
R에서 슬라이딩 상관관계를 계산하는 방법

의견을 추가하다

이메일 주소는 공개되지 않습니다. 필수 필드는 *로 표시됩니다