영 및 잔차 이탈도를 해석하는 방법(예제 포함)


일반 선형 모델(예: 로지스틱 회귀, 포아송 회귀 등)을 적용할 때마다 대부분의 통계 소프트웨어는 모델의 영 이탈도잔차 이탈도 에 대한 값을 생성합니다.

이탈도 0은 원래 항만 사용하는 모델에서 반응 변수를 얼마나 잘 예측할 수 있는지를 나타냅니다.

잔차 이탈도는 p개의 예측 변수가 있는 모델에서 반응 변수를 얼마나 잘 예측할 수 있는지 알려줍니다. 값이 낮을수록 모델이 반응 변수의 값을 더 잘 예측할 수 있습니다.

모델이 “유용한”지 여부를 확인하기 위해 다음과 같이 카이제곱 통계량을 계산할 수 있습니다.

X 2 = 제로 이탈도 – 잔여 이탈도

p 자유도를 가지고 있습니다.

그러면 이 카이제곱 통계량과 관련된 p-값을 찾을 수 있습니다. p-값이 낮을수록 원래 항만 사용한 모델에 비해 모델이 데이터세트를 더 잘 적합할 수 있습니다.

다음 예에서는 R의 로지스틱 회귀 모델에 대한 0 및 잔차 이탈도를 해석하는 방법을 보여줍니다.

예: 영점 및 잔차 이탈도 해석

이 예에서는 ISLR 패키지의 기본 데이터 세트를 사용합니다. 다음 코드를 사용하여 데이터세트 요약을 로드하고 표시할 수 있습니다.

 #load dataset
data <- ISLR::Default

#view summary of dataset
summary(data)

 default student balance income     
 No:9667 No:7056 Min. : 0.0 Min. : 772  
 Yes: 333 Yes:2944 1st Qu.: 481.7 1st Qu.:21340  
                       Median: 823.6 Median: 34553  
                       Mean: 835.4 Mean: 33517  
                       3rd Qu.:1166.3 3rd Qu.:43808  
                       Max. :2654.3 Max. :73554 

이 데이터 세트에는 10,000명의 개인에 대한 다음 정보가 포함되어 있습니다.

  • 기본값: 개인이 채무 불이행을 했는지 여부를 나타냅니다.
  • 학생: 개인이 학생인지 여부를 나타냅니다.
  • 잔액: 개인이 보유하고 있는 평균 잔액입니다.
  • 소득: 개인의 소득.

우리는 학생 상태, 은행 잔고 및 소득을 사용하여 특정 개인이 채무를 불이행할 확률을 예측하는 로지스틱 회귀 모델을 구축할 것입니다.

 #fit logistic regression model
model <- glm(default~balance+student+income, family=" binomial ", data=data)

#view model summary
summary(model)

Call:
glm(formula = default ~ balance + student + income, family = "binomial", 
    data = data)

Deviance Residuals: 
    Min 1Q Median 3Q Max  
-2.4691 -0.1418 -0.0557 -0.0203 3.7383  

Coefficients:
              Estimate Std. Error z value Pr(>|z|)    
(Intercept) -1.087e+01 4.923e-01 -22.080 < 2e-16 ***
balance 5.737e-03 2.319e-04 24.738 < 2e-16 ***
studentYes -6.468e-01 2.363e-01 -2.738 0.00619 ** 
income 3.033e-06 8.203e-06 0.370 0.71152    
---
Significant. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1

(Dispersion parameter for binomial family taken to be 1)

    Null deviance: 2920.6 on 9999 degrees of freedom
Residual deviance: 1571.5 on 9996 degrees of freedom
AIC: 1579.5

Number of Fisher Scoring iterations: 8

0과 잔차 편차에 대한 출력에서 다음 값을 관찰할 수 있습니다.

  • 제로 이탈도 : 2920.6(df = 9999)
  • 잔차 편차 : 1571.5, df = 9996

이 값을 사용하여 모델의 X 2 통계를 계산할 수 있습니다.

  • X 2 = 제로 이탈도 – 잔여 이탈도
  • X2 = 2910.6 – 1579.0
  • X2 = 1331.6

예측 변수의 자유도는 p = 3입니다.

카이제곱 대 P-값 계산기를 사용하여 자유도가 3인 X 2 값 1331.6의 p-값이 0.000000임을 알 수 있습니다.

이 p-값은 0.05보다 훨씬 작기 때문에 해당 모델이 특정 개인의 채무 불이행 가능성을 예측하는 데 매우 유용하다는 결론을 내릴 수 있습니다.

추가 리소스

다음 튜토리얼에서는 R 및 Python에서 실제로 로지스틱 회귀를 수행하는 방법을 설명합니다.

R에서 로지스틱 회귀를 수행하는 방법
Python에서 로지스틱 회귀를 수행하는 방법

의견을 추가하다

이메일 주소는 공개되지 않습니다. 필수 필드는 *로 표시됩니다