R에서 쌍 도표를 만들고 해석하는 방법


쌍 도표는 데이터 세트에 있는 다양한 변수 간의 쌍별 관계를 이해할 수 있는 산점도 행렬입니다.

다행스럽게도 pair() 함수를 사용하여 R에서 쌍 플롯을 만드는 것은 쉽습니다. 이 튜토리얼에서는 이 기능의 실제 사용에 대한 몇 가지 예를 제공합니다.

예 1: 모든 변수의 쌍 도표

다음 코드는 R의 데이터 프레임에 있는 모든 변수에 대한 염기쌍 도표를 생성하는 방법을 보여줍니다.

 #make this example reproducible 
set.seed(0)

#create data frame 
var1 <- rnorm(1000)
var2 <- var1 + rnorm(1000, 0, 2)
var3 <- var2 - rnorm(1000, 0, 5)
 
df <- data.frame(var1, var2, var3)

#create pairs plot 
peers(df) 

행렬을 해석하는 방법은 다음과 같습니다.

  • 변수 이름은 대각선 상자를 따라 표시됩니다.
  • 다른 모든 상자에는 각 쌍별 변수 조합 간의 관계에 대한 산점도가 표시됩니다. 예를 들어 행렬의 오른쪽 상단에 있는 영역에는 var1var3 값의 산점도가 표시됩니다. 왼쪽 가운데 상자에는 var1var2 등에 대한 값의 산점도가 표시됩니다.

이 단일 그래프는 데이터 세트의 각 변수 쌍 간의 관계에 대한 아이디어를 제공합니다. 예를 들어, var1var2는 양의 상관 관계가 있는 것으로 나타나는 반면 var1var3은 상관 관계가 거의 또는 전혀 없는 것으로 나타납니다.

예 2: 특정 변수 쌍의 도표화

다음 코드는 데이터 세트의 처음 두 변수에 대해서만 염기쌍 도표를 생성하는 방법을 보여줍니다.

 #create pairs plot for var1 and var2 only
even(df[, 1:2]) 

R에서 특정 변수 쌍 그리기

예 3: 쌍 도표의 미학 변경

다음 코드는 제목, 색상 및 레이블을 포함하여 쌍 그림의 미적 외관을 변경하는 방법을 보여줍니다.

 peers(df,
      col = ' blue ', #modify color
      labels = c(' First ', ' Second ', ' Third '), #modify labels
      main = ' Custom Title ') #modify title 

R에서 사용자 정의 쌍 그리기

예 4: ggpairs와의 상관관계 얻기

GGally 라이브러리의 ggpairs() 함수를 사용하여 변수 간의 Pearson 상관 계수를 얻을 수도 있습니다. 다음 코드는 이 함수를 사용하는 방법을 보여줍니다.

 #install necessary libraries
install.packages('ggplot2')
install.packages('GGally')

#load libraries
library(ggplot2)
library(GGally)

#create pairs plot
ggpairs(df) 

R 예제의 ggpairs 함수

이 행렬을 해석하는 방법은 다음과 같습니다.

  • 변수 이름은 행렬의 바깥쪽 가장자리에 표시됩니다.
  • 대각선을 따라 있는 상자에는 각 변수에 대한 밀도 도표가 표시됩니다.
  • 왼쪽 하단 모서리에 있는 상자에는 각 변수 사이의 산점도가 표시됩니다.
  • 오른쪽 상단 모서리에 있는 상자에는 각 변수 간의 피어슨 상관 계수가 표시됩니다. 예를 들어, var1과 var2 간의 상관 관계는 0.425 입니다.

기본 R pair() 함수에 비해 ggpairs()를 사용하면 변수에 대한 더 많은 정보를 얻을 수 있다는 장점이 있습니다. 특히 각 변수의 쌍별 조합 간의 상관 계수와 각 개별 변수에 대한 밀도 도표를 볼 수 있습니다.

ggpairs() 함수에 대한 전체 문서는 여기에서 찾을 수 있습니다.

의견을 추가하다

이메일 주소는 공개되지 않습니다. 필수 필드는 *로 표시됩니다