영 및 잔차 이탈도를 해석하는 방법(예제 포함)

에 의해 벤자민 앤더슨 7월 23, 2023 가이드 댓글 0개

일반 선형 모델(예: 로지스틱 회귀, 포아송 회귀 등)을 적용할 때마다 대부분의 통계 소프트웨어는 모델의 영 이탈도 및 잔차 이탈도 에 대한 값을 생성합니다.

이탈도 0은 원래 항만 사용하는 모델에서 반응 변수를 얼마나 잘 예측할 수 있는지를 나타냅니다.

잔차 이탈도는 p개의 예측 변수가 있는 모델에서 반응 변수를 얼마나 잘 예측할 수 있는지 알려줍니다. 값이 낮을수록 모델이 반응 변수의 값을 더 잘 예측할 수 있습니다.

모델이 “유용한”지 여부를 확인하기 위해 다음과 같이 카이제곱 통계량을 계산할 수 있습니다.

X ² = 제로 이탈도 – 잔여 이탈도

p 자유도를 가지고 있습니다.

그러면 이 카이제곱 통계량과 관련된 p-값을 찾을 수 있습니다. p-값이 낮을수록 원래 항만 사용한 모델에 비해 모델이 데이터세트를 더 잘 적합할 수 있습니다.

다음 예에서는 R의 로지스틱 회귀 모델에 대한 0 및 잔차 이탈도를 해석하는 방법을 보여줍니다.

예: 영점 및 잔차 이탈도 해석

이 예에서는 ISLR 패키지의 기본 데이터 세트를 사용합니다. 다음 코드를 사용하여 데이터세트 요약을 로드하고 표시할 수 있습니다.

 #load dataset
data <- ISLR::Default

#view summary of dataset
summary(data)

 default student balance income     
 No:9667 No:7056 Min. : 0.0 Min. : 772  
 Yes: 333 Yes:2944 1st Qu.: 481.7 1st Qu.:21340  
                       Median: 823.6 Median: 34553  
                       Mean: 835.4 Mean: 33517  
                       3rd Qu.:1166.3 3rd Qu.:43808  
                       Max. :2654.3 Max. :73554

이 데이터 세트에는 10,000명의 개인에 대한 다음 정보가 포함되어 있습니다.

기본값: 개인이 채무 불이행을 했는지 여부를 나타냅니다.
학생: 개인이 학생인지 여부를 나타냅니다.
잔액: 개인이 보유하고 있는 평균 잔액입니다.
소득: 개인의 소득.

우리는 학생 상태, 은행 잔고 및 소득을 사용하여 특정 개인이 채무를 불이행할 확률을 예측하는 로지스틱 회귀 모델을 구축할 것입니다.

 #fit logistic regression model
model <- glm(default~balance+student+income, family=" binomial ", data=data)

#view model summary
summary(model)

Call:
glm(formula = default ~ balance + student + income, family = "binomial", 
    data = data)

Deviance Residuals: 
    Min 1Q Median 3Q Max  
-2.4691 -0.1418 -0.0557 -0.0203 3.7383  

Coefficients:
              Estimate Std. Error z value Pr(>|z|)    
(Intercept) -1.087e+01 4.923e-01 -22.080 < 2e-16 ***
balance 5.737e-03 2.319e-04 24.738 < 2e-16 ***
studentYes -6.468e-01 2.363e-01 -2.738 0.00619 ** 
income 3.033e-06 8.203e-06 0.370 0.71152    
---
Significant. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1

(Dispersion parameter for binomial family taken to be 1)

    Null deviance: 2920.6 on 9999 degrees of freedom
Residual deviance: 1571.5 on 9996 degrees of freedom
AIC: 1579.5

Number of Fisher Scoring iterations: 8

0과 잔차 편차에 대한 출력에서 다음 값을 관찰할 수 있습니다.

제로 이탈도 : 2920.6(df = 9999)
잔차 편차 : 1571.5, df = 9996

이 값을 사용하여 모델의 X ² 통계를 계산할 수 있습니다.

X ² = 제로 이탈도 – 잔여 이탈도
^X2 = 2910.6 – 1579.0
^X2 = 1331.6

예측 변수의 자유도는 p = 3입니다.

카이제곱 대 P-값 계산기를 사용하여 자유도가 3인 X ² 값 1331.6의 p-값이 0.000000임을 알 수 있습니다.

이 p-값은 0.05보다 훨씬 작기 때문에 해당 모델이 특정 개인의 채무 불이행 가능성을 예측하는 데 매우 유용하다는 결론을 내릴 수 있습니다.

추가 리소스

다음 튜토리얼에서는 R 및 Python에서 실제로 로지스틱 회귀를 수행하는 방법을 설명합니다.

R에서 로지스틱 회귀를 수행하는 방법
Python에서 로지스틱 회귀를 수행하는 방법

저자 소개

벤자민 앤더슨

안녕하세요. 저는 통계학 교수를 퇴직하고 전임 통계 교사로 변신한 벤자민입니다. 통계 분야의 광범위한 경험과 전문 지식을 바탕으로 Statorials를 통해 학생들에게 힘을 실어주기 위해 지식을 공유하고 싶습니다. 더 알아보기

예: 영점 및 잔차 이탈도 해석

추가 리소스

저자 소개

벤자민 앤더슨

의견을 추가하다