Ggplot2에서 잔차 도표를 만드는 방법(예제 포함)
잔차 도표는 회귀 모델의 잔차가 정규 분포를 따르는지 여부와 이분산성을 나타내는지 여부를 평가하는 데 사용됩니다.
ggplot2에서 잔차 플롯을 생성하려면 다음 기본 구문을 사용할 수 있습니다.
library (ggplot2) ggplot(model, aes(x = .fitted, y = .resid)) + geom_point() + geom_hline(yintercept = 0 )
다음 예에서는 실제로 이 구문을 사용하는 방법을 보여줍니다.
예: ggplot2에서 잔차 도표 생성
이 예에서는 R에 내장된 mtcars 데이터 세트를 사용합니다.
#view first six rows of mtcars dataset
head(mtcars)
mpg cyl disp hp drat wt qsec vs am gear carb
Mazda RX4 21.0 6 160 110 3.90 2.620 16.46 0 1 4 4
Mazda RX4 Wag 21.0 6 160 110 3.90 2.875 17.02 0 1 4 4
Datsun 710 22.8 4 108 93 3.85 2.320 18.61 1 1 4 1
Hornet 4 Drive 21.4 6 258 110 3.08 3.215 19.44 1 0 3 1
Hornet Sportabout 18.7 8 360 175 3.15 3.440 17.02 0 0 3 2
Valiant 18.1 6 225 105 2.76 3,460 20.22 1 0 3 1
먼저 mpg를 응답 변수로 사용하고 qsec를 예측 변수로 사용하여 회귀 모델을 적합합니다.
#fit regression model
model <- lm(mpg ~ qsec, data=mtcars)
다음으로, 다음 구문을 사용하여 ggplot2에 잔차 플롯을 만듭니다.
library (ggplot2) #create residual plot ggplot(model, aes(x = .fitted, y = .resid)) + geom_point() + geom_hline(yintercept = 0 )
x축은 적합치를 표시하고 y축은 잔차를 표시합니다.
잔차는 명확한 패턴 없이 0 주위에 무작위로 흩어져 있는 것으로 나타나 등분산성 가정이 충족됨을 나타냅니다.
즉, 회귀 모델의 계수는 신뢰할 수 있어야 하며 데이터에 대한 변환을 수행할 필요가 없습니다.
또한 labs() 함수를 사용하여 잔차 플롯에 제목과 축 레이블을 추가할 수 있습니다.
library (ggplot2) #create residual plot with title and axis labels ggplot(model, aes(x = .fitted, y = .resid)) + geom_point() + geom_hline(yintercept = 0 ) + labs(title=' Residual vs. Fitted Values Plot ', x=' Fitted Values ', y=' Residuals ')
추가 리소스
다음 튜토리얼에서는 R에서 다른 일반적인 작업을 수행하는 방법을 설명합니다.
R에서 표준화 잔차를 계산하는 방법
R에서 스튜던트화 잔차를 계산하는 방법
R에서 잔차 히스토그램을 만드는 방법