R에서 쌍 도표를 만들고 해석하는 방법
쌍 도표는 데이터 세트에 있는 다양한 변수 간의 쌍별 관계를 이해할 수 있는 산점도 행렬입니다.
다행스럽게도 pair() 함수를 사용하여 R에서 쌍 플롯을 만드는 것은 쉽습니다. 이 튜토리얼에서는 이 기능의 실제 사용에 대한 몇 가지 예를 제공합니다.
예 1: 모든 변수의 쌍 도표
다음 코드는 R의 데이터 프레임에 있는 모든 변수에 대한 염기쌍 도표를 생성하는 방법을 보여줍니다.
#make this example reproducible set.seed(0) #create data frame var1 <- rnorm(1000) var2 <- var1 + rnorm(1000, 0, 2) var3 <- var2 - rnorm(1000, 0, 5) df <- data.frame(var1, var2, var3) #create pairs plot peers(df)
행렬을 해석하는 방법은 다음과 같습니다.
- 변수 이름은 대각선 상자를 따라 표시됩니다.
- 다른 모든 상자에는 각 쌍별 변수 조합 간의 관계에 대한 산점도가 표시됩니다. 예를 들어 행렬의 오른쪽 상단에 있는 영역에는 var1 및 var3 값의 산점도가 표시됩니다. 왼쪽 가운데 상자에는 var1 및 var2 등에 대한 값의 산점도가 표시됩니다.
이 단일 그래프는 데이터 세트의 각 변수 쌍 간의 관계에 대한 아이디어를 제공합니다. 예를 들어, var1 과 var2는 양의 상관 관계가 있는 것으로 나타나는 반면 var1 과 var3은 상관 관계가 거의 또는 전혀 없는 것으로 나타납니다.
예 2: 특정 변수 쌍의 도표화
다음 코드는 데이터 세트의 처음 두 변수에 대해서만 염기쌍 도표를 생성하는 방법을 보여줍니다.
#create pairs plot for var1 and var2 only
even(df[, 1:2])
예 3: 쌍 도표의 미학 변경
다음 코드는 제목, 색상 및 레이블을 포함하여 쌍 그림의 미적 외관을 변경하는 방법을 보여줍니다.
peers(df, col = ' blue ', #modify color labels = c(' First ', ' Second ', ' Third '), #modify labels main = ' Custom Title ') #modify title
예 4: ggpairs와의 상관관계 얻기
GGally 라이브러리의 ggpairs() 함수를 사용하여 변수 간의 Pearson 상관 계수를 얻을 수도 있습니다. 다음 코드는 이 함수를 사용하는 방법을 보여줍니다.
#install necessary libraries install.packages('ggplot2') install.packages('GGally') #load libraries library(ggplot2) library(GGally) #create pairs plot ggpairs(df)
이 행렬을 해석하는 방법은 다음과 같습니다.
- 변수 이름은 행렬의 바깥쪽 가장자리에 표시됩니다.
- 대각선을 따라 있는 상자에는 각 변수에 대한 밀도 도표가 표시됩니다.
- 왼쪽 하단 모서리에 있는 상자에는 각 변수 사이의 산점도가 표시됩니다.
- 오른쪽 상단 모서리에 있는 상자에는 각 변수 간의 피어슨 상관 계수가 표시됩니다. 예를 들어, var1과 var2 간의 상관 관계는 0.425 입니다.
기본 R pair() 함수에 비해 ggpairs()를 사용하면 변수에 대한 더 많은 정보를 얻을 수 있다는 장점이 있습니다. 특히 각 변수의 쌍별 조합 간의 상관 계수와 각 개별 변수에 대한 밀도 도표를 볼 수 있습니다.
ggpairs() 함수에 대한 전체 문서는 여기에서 찾을 수 있습니다.