영 및 잔차 이탈도를 해석하는 방법(예제 포함)
일반 선형 모델(예: 로지스틱 회귀, 포아송 회귀 등)을 적용할 때마다 대부분의 통계 소프트웨어는 모델의 영 이탈도 및 잔차 이탈도 에 대한 값을 생성합니다.
이탈도 0은 원래 항만 사용하는 모델에서 반응 변수를 얼마나 잘 예측할 수 있는지를 나타냅니다.
잔차 이탈도는 p개의 예측 변수가 있는 모델에서 반응 변수를 얼마나 잘 예측할 수 있는지 알려줍니다. 값이 낮을수록 모델이 반응 변수의 값을 더 잘 예측할 수 있습니다.
모델이 “유용한”지 여부를 확인하기 위해 다음과 같이 카이제곱 통계량을 계산할 수 있습니다.
X 2 = 제로 이탈도 – 잔여 이탈도
p 자유도를 가지고 있습니다.
그러면 이 카이제곱 통계량과 관련된 p-값을 찾을 수 있습니다. p-값이 낮을수록 원래 항만 사용한 모델에 비해 모델이 데이터세트를 더 잘 적합할 수 있습니다.
다음 예에서는 R의 로지스틱 회귀 모델에 대한 0 및 잔차 이탈도를 해석하는 방법을 보여줍니다.
예: 영점 및 잔차 이탈도 해석
이 예에서는 ISLR 패키지의 기본 데이터 세트를 사용합니다. 다음 코드를 사용하여 데이터세트 요약을 로드하고 표시할 수 있습니다.
#load dataset data <- ISLR::Default #view summary of dataset summary(data) default student balance income No:9667 No:7056 Min. : 0.0 Min. : 772 Yes: 333 Yes:2944 1st Qu.: 481.7 1st Qu.:21340 Median: 823.6 Median: 34553 Mean: 835.4 Mean: 33517 3rd Qu.:1166.3 3rd Qu.:43808 Max. :2654.3 Max. :73554
이 데이터 세트에는 10,000명의 개인에 대한 다음 정보가 포함되어 있습니다.
- 기본값: 개인이 채무 불이행을 했는지 여부를 나타냅니다.
- 학생: 개인이 학생인지 여부를 나타냅니다.
- 잔액: 개인이 보유하고 있는 평균 잔액입니다.
- 소득: 개인의 소득.
우리는 학생 상태, 은행 잔고 및 소득을 사용하여 특정 개인이 채무를 불이행할 확률을 예측하는 로지스틱 회귀 모델을 구축할 것입니다.
#fit logistic regression model model <- glm(default~balance+student+income, family=" binomial ", data=data) #view model summary summary(model) Call: glm(formula = default ~ balance + student + income, family = "binomial", data = data) Deviance Residuals: Min 1Q Median 3Q Max -2.4691 -0.1418 -0.0557 -0.0203 3.7383 Coefficients: Estimate Std. Error z value Pr(>|z|) (Intercept) -1.087e+01 4.923e-01 -22.080 < 2e-16 *** balance 5.737e-03 2.319e-04 24.738 < 2e-16 *** studentYes -6.468e-01 2.363e-01 -2.738 0.00619 ** income 3.033e-06 8.203e-06 0.370 0.71152 --- Significant. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1 (Dispersion parameter for binomial family taken to be 1) Null deviance: 2920.6 on 9999 degrees of freedom Residual deviance: 1571.5 on 9996 degrees of freedom AIC: 1579.5 Number of Fisher Scoring iterations: 8
0과 잔차 편차에 대한 출력에서 다음 값을 관찰할 수 있습니다.
- 제로 이탈도 : 2920.6(df = 9999)
- 잔차 편차 : 1571.5, df = 9996
이 값을 사용하여 모델의 X 2 통계를 계산할 수 있습니다.
- X 2 = 제로 이탈도 – 잔여 이탈도
- X2 = 2910.6 – 1579.0
- X2 = 1331.6
예측 변수의 자유도는 p = 3입니다.
카이제곱 대 P-값 계산기를 사용하여 자유도가 3인 X 2 값 1331.6의 p-값이 0.000000임을 알 수 있습니다.
이 p-값은 0.05보다 훨씬 작기 때문에 해당 모델이 특정 개인의 채무 불이행 가능성을 예측하는 데 매우 유용하다는 결론을 내릴 수 있습니다.
추가 리소스
다음 튜토리얼에서는 R 및 Python에서 실제로 로지스틱 회귀를 수행하는 방법을 설명합니다.
R에서 로지스틱 회귀를 수행하는 방법
Python에서 로지스틱 회귀를 수행하는 방법