R에서 진단 플롯을 해석하는 방법


선형 회귀 모델은 하나 이상의 예측 변수와 반응 변수 간의 관계를 설명하는 데 사용됩니다.

그러나 회귀 모델을 적용한 후에는 진단 플롯을 생성하여 모델 잔차를 분석하고 선형 모델이 작업 중인 특정 데이터에 사용하기에 적합한지 확인하는 것이 좋습니다.

이 튜토리얼에서는 R에서 특정 회귀 모델에 대한 진단 플롯을 생성하고 해석하는 방법을 설명합니다.

예: R에서 진단 플롯 생성 및 해석

특정 수업에서 학생들의 “시험 성적”을 예측하기 위해 “공부한 시간”을 사용하여 간단한 선형 회귀 모델을 적합하다고 가정해 보겠습니다.

 #create data frame
df <- data. frame (hours=c(1, 1, 2, 2, 2, 3, 3, 4, 4, 4, 4, 5, 5, 6),
                 score=c(67, 65, 68, 77, 73, 79, 81, 88, 80, 67, 84, 93, 90, 91)) 

#fit linear regression model
model = lm(score ~ hours, data=df)

플롯() 명령을 사용하여 이 회귀 모델에 대한 4개의 진단 플롯을 생성할 수 있습니다.

 #produce diagnostic plots for regression model
plot(model)

R의 진단 플롯

진단 차트 #1: 잔차 vs. 레버리지 차트

이 그래프는 영향력 있는 관찰을 식별하는 데 사용됩니다. 이 그래프의 점이 Cook의 거리(점선)를 벗어나면 이는 영향력 있는 관찰입니다.

R에서 잔차 및 레버리지 플로팅

이 예에서는 관측치 #10이 Cook 거리 한계에 가장 가깝지만 점선을 벗어나지 않는다는 것을 알 수 있습니다. 이는 우리 데이터 세트에 지나치게 영향력 있는 포인트가 없다는 것을 의미합니다.

진단 플롯 #2: 규모 및 위치 플롯

이 그래프는 회귀 모델의 잔차 간의 분산 균등성(“동분산성”이라고도 함) 가정을 확인하는 데 사용됩니다. 빨간색 선이 그림에서 대략 수평이면 등분산 가정이 충족될 가능성이 높습니다.

R의 규모와 위치에 맞춰 플롯됨

이 예에서는 빨간색 선이 플롯에서 정확히 수평이 아니지만 어떤 지점에서도 너무 크게 벗어나지 않는다는 것을 알 수 있습니다. 우리는 아마도 이 경우 등분산 가정이 위반되지 않는다고 말할 것입니다.

관련 항목: 회귀 분석의 이분산성 이해

진단 추적 #3: 일반 QQ 추적

이 도표는 회귀 모델의 잔차가 정규 분포를 따르는지 확인하는 데 사용됩니다. 이 그래프의 점들이 대략 직선 대각선을 따라 놓여 있으면 잔차가 정규 분포를 따른다고 가정할 수 있습니다.

이 예에서는 점들이 대략 대각선 직선을 따라 놓여 있는 것을 볼 수 있습니다. 관측치 #10과 #8은 끝 부분의 선에서 약간 벗어났지만 잔차가 정규 분포를 따르지 않는다고 선언하기에는 충분하지 않습니다.

진단 플롯 #4: 잔차 대 잔차 조정된 플롯

이 플롯은 잔차가 비선형 패턴을 나타내는지 여부를 확인하는 데 사용됩니다. 플롯 중앙의 빨간색 선이 대략 수평이면 잔차가 선형 패턴을 따른다고 가정할 수 있습니다.

이 예에서는 빨간색 선이 완벽한 수평선에서 벗어나지만 크게 벗어나는 것을 볼 수 있습니다. 우리는 잔차가 대략 선형 패턴을 따르며 선형 회귀 모델이 이 데이터 세트에 적합하다고 말하고 있습니다.

추가 리소스

선형 회귀의 네 가지 가정
통계에서 잔차란 무엇입니까?
R에서 잔차 플롯을 만드는 방법
축척 및 위치 도표를 해석하는 방법

의견을 추가하다

이메일 주소는 공개되지 않습니다. 필수 필드는 *로 표시됩니다