R에서 산점도 행렬을 만드는 방법(예제 2개)
산점도 행렬은 데이터 세트의 서로 다른 변수 간의 쌍별 관계를 이해할 수 있는 산점도 행렬입니다.
R에서 산점도 행렬을 생성하는 두 가지 일반적인 방법이 있습니다.
방법 1: 기본 R 사용
#create scatterplot matrix (pch=20 means to use a solid circle for points) plot(df, pch= 20 )
방법 2: ggplot2 및 GGally 패키지 사용
library (ggplot2) library (GGally) #create scatterplot matrix ggpairs(df)
다음 예에서는 R의 다음 데이터 프레임을 사용하여 실제로 각 메서드를 사용하는 방법을 보여줍니다.
#create data frame df <- data. frame (points=c(99, 90, 86, 88, 95, 99, 101, 104), assists=c(33, 28, 31, 39, 40, 40, 35, 47), rebounds=c(30, 28, 24, 24, 20, 20, 15, 12)) #view first few rows of data frame head(df) points assists rebounds 1 99 33 30 2 90 28 28 3 86 31 24 4 88 39 24 5 95 40 20 6 99 40 20
예제 1: 기본 R을 사용하여 산점도 행렬 생성
기본 R 플롯() 함수를 사용하여 데이터 프레임의 각 변수에 대한 산점도 행렬을 만들 수 있습니다.
#create scatterplot matrix
plot(df, pch= 20 , cex= 1.5 , col=' steelblue ')
행렬을 해석하는 방법은 다음과 같습니다.
- 변수 이름은 대각선 상자를 따라 표시됩니다.
- 다른 모든 상자에는 각 쌍별 변수 조합 간의 관계에 대한 산점도가 표시됩니다. 예를 들어, 매트릭스의 오른쪽 상단에 있는 상자에는 포인트 와 리바운드 값의 산점도가 표시됩니다. 왼쪽 중앙 영역에는 포인트 와 어시스트 등에 대한 값의 산점도가 표시됩니다.
cex 는 경로의 점 크기를 제어하고 col은 점의 색상을 제어합니다.
예 2: ggplot2 및 GGally를 사용하여 산점도 행렬 생성
또한 R의 ggplot2 및 GGally 패키지에 있는 ggpairs() 함수를 사용하여 데이터 프레임의 각 변수에 대한 산점도 행렬을 만들 수 있습니다.
library (ggplot2) library (GGally) #create scatterplot matrix ggpairs(df)
이 산점도 행렬에는 R 기본 플롯() 함수와 동일한 산점도가 포함되어 있지만 추가로 각 변수 쌍별 조합 간의 상관 계수와 각 개별 변수에 대한 밀도 도표도 볼 수 있습니다.
예를 들어 다음을 볼 수 있습니다.
- 어시스트와 포인트의 상관계수는 0.571 이다.
- 리바운드와 포인트 사이의 상관계수는 -0.598 입니다.
- 리바운드와 어시스트의 상관계수는 -0.740 입니다.
-0.740 옆의 작은 별표( * )도 리바운드와 어시스트 간의 상관관계가 통계적으로 유의미하다는 것을 나타냅니다.
추가 리소스
다음 튜토리얼에서는 R에서 다른 일반적인 작업을 수행하는 방법을 설명합니다.