로지스틱 회귀 분석에 대한 귀무 가설 이해

에 의해 벤자민 앤더슨 7월 23, 2023 가이드 댓글 0개

로지스틱 회귀는 응답 변수가 이진일 때 하나 이상의 예측 변수와 응답 변수 간의 관계를 이해하는 데 사용할 수 있는 회귀 모델 유형입니다.

하나의 예측 변수와 하나의 응답 변수만 있는 경우 다음 공식을 사용하여 변수 간의 관계를 추정하는 단순 로지스틱 회귀를 사용할 수 있습니다.

로그[p(X) / (1-p(X))] = β ₀ + β ₁

방정식 오른쪽의 공식은 응답 변수가 값 1을 취할 확률의 로그를 예측합니다.

단순 로지스틱 회귀에서는 다음과 같은 귀무 가설과 대립 가설을 사용합니다.

H ₀ : β ₁ = 0
_HA : β ₁ ≠ 0

귀무 가설은 계수 β ₁ 이 0과 같다는 것입니다. 즉, 예측 변수 x와 반응 변수 y 사이에는 통계적으로 유의미한 관계가 없습니다.

대립 가설은 β _{1 이} 0이 아니라는 것입니다. 즉, x와 y 사이에는 통계적으로 유의미한 관계가 있습니다 .

예측 변수와 응답 변수가 여러 개인 경우 다음 공식을 사용하여 변수 간의 관계를 추정하는 다중 로지스틱 회귀를 사용할 수 있습니다.

로그[p(X) / (1-p(X))] = β ₀ + β ₁ x ₁ + β ₂ x ₂ + … + β _k x _k

다중 로지스틱 회귀에서는 다음과 같은 귀무 가설과 대립 가설을 사용합니다.

H ₀ : β ₁ = β ₂ = … = β _k = 0
H _A : β ₁ = β ₂ = … = β _k ≠ 0

귀무 가설은 모델의 모든 계수가 0과 같다는 것입니다. 즉, 예측 변수 중 어느 것도 응답 변수 y와 통계적으로 유의미한 관계를 갖지 않습니다.

대립 가설은 모든 계수가 동시에 0이 아니라는 것입니다.

다음 예에서는 단순 로지스틱 회귀 모델과 다중 로지스틱 회귀 모델에서 귀무 가설을 기각할지 여부를 결정하는 방법을 보여줍니다.

예시 1: 단순 로지스틱 회귀

교수가 수업 시간을 사용하여 자신의 반 학생들이 달성할 시험 성적을 예측하려고 한다고 가정해 보겠습니다. 20명의 학생으로부터 데이터를 수집하고 단순 로지스틱 회귀 모델에 적합합니다.

간단한 로지스틱 회귀 모델을 맞추기 위해 R에서 다음 코드를 사용할 수 있습니다.

 #createdata
df <- data. frame (result=c(0, 0, 1, 0, 0, 0, 1, 0, 0, 1, 0, 1, 1, 1, 1, 1, 1, 1, 1, 1),
                 hours=c(1, 5, 5, 1, 2, 1, 3, 2, 2, 1, 2, 1, 3, 4, 4, 2, 1, 1, 4, 3))

#fit simple logistic regression model
model <- glm(result~hours, family=' binomial ', data=df)

#view summary of model fit
summary(model)

Call:
glm(formula = result ~ hours, family = "binomial", data = df)

Deviance Residuals: 
    Min 1Q Median 3Q Max  
-1.8244 -1.1738 0.7701 0.9460 1.2236  

Coefficients:
            Estimate Std. Error z value Pr(>|z|)
(Intercept) -0.4987 0.9490 -0.526 0.599
hours 0.3906 0.3714 1.052 0.293

(Dispersion parameter for binomial family taken to be 1)

    Null deviance: 26,920 on 19 degrees of freedom
Residual deviance: 25,712 on 18 degrees of freedom
AIC: 29,712

Number of Fisher Scoring iterations: 4

#calculate p-value of overall Chi-Square statistic
1-pchisq(26.920-25.712, 19-18)

[1] 0.2717286

공부 시간과 시험 점수 사이에 통계적으로 유의미한 관계가 있는지 확인하려면 모델의 전체 카이제곱 값과 해당 p-값을 분석해야 합니다.

다음 공식을 사용하여 모델의 전체 카이제곱 값을 계산할 수 있습니다.

X ² = (0 이탈도 – 잔차 이탈도) / (0 Df – 잔차 Df)

p-값은 0.2717286 으로 나타났습니다.

이 p-값은 0.05 이상이므로 귀무가설을 기각할 수 없습니다. 즉, 공부한 시간과 시험 점수 사이에는 통계적으로 유의미한 관계가 없습니다.

예시 2: 다중 로지스틱 회귀

교수가 수업 시간과 준비 시험 횟수를 사용하여 학생들이 수업에서 받을 성적을 예측하려고 한다고 가정해 보겠습니다. 20명의 학생으로부터 데이터를 수집하고 다중 로지스틱 회귀 모델에 적합합니다.

R에서 다음 코드를 사용하여 다중 로지스틱 회귀 모델을 맞출 수 있습니다.

 #create data
df <- data. frame (result=c(0, 0, 1, 0, 0, 0, 1, 0, 0, 1, 0, 1, 1, 1, 1, 1, 1, 1, 1, 1),
                 hours=c(1, 5, 5, 1, 2, 1, 3, 2, 2, 1, 2, 1, 3, 4, 4, 2, 1, 1, 4, 3),
                 exams=c(1, 2, 2, 1, 2, 1, 1, 3, 2, 4, 3, 2, 2, 4, 4, 5, 4, 4, 3, 5))

#fit simple logistic regression model
model <- glm(result~hours+exams, family=' binomial ', data=df)

#view summary of model fit
summary(model)

Call:
glm(formula = result ~ hours + exams, family = "binomial", data = df)

Deviance Residuals: 
    Min 1Q Median 3Q Max  
-1.5061 -0.6395 0.3347 0.6300 1.7014  

Coefficients:
            Estimate Std. Error z value Pr(>|z|)  
(Intercept) -3.4873 1.8557 -1.879 0.0602 .
hours 0.3844 0.4145 0.927 0.3538  
exams 1.1549 0.5493 2.103 0.0355 *
---
Significant. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1

(Dispersion parameter for binomial family taken to be 1)

    Null deviance: 26,920 on 19 degrees of freedom
Residual deviance: 19,067 on 17 degrees of freedom
AIC: 25,067

Number of Fisher Scoring iterations: 5

#calculate p-value of overall Chi-Square statistic
1-pchisq(26.920-19.067, 19-17)

[1] 0.01971255

모델의 전체 카이제곱 통계량에 대한 p-값은 0.01971255 로 나타났습니다.

이 p-값은 0.05보다 작으므로 귀무가설을 기각합니다. 즉, 공부한 시간과 치른 준비 시험의 조합과 시험에서 얻은 최종 성적 사이에는 통계적으로 유의미한 관계가 있습니다.

추가 리소스

다음 자습서에서는 로지스틱 회귀에 대한 추가 정보를 제공합니다.

로지스틱 회귀 소개
로지스틱 회귀 결과를 보고하는 방법
로지스틱 회귀와 선형 회귀: 주요 차이점

저자 소개

벤자민 앤더슨

안녕하세요. 저는 통계학 교수를 퇴직하고 전임 통계 교사로 변신한 벤자민입니다. 통계 분야의 광범위한 경험과 전문 지식을 바탕으로 Statorials를 통해 학생들에게 힘을 실어주기 위해 지식을 공유하고 싶습니다. 더 알아보기

예시 1: 단순 로지스틱 회귀

예시 2: 다중 로지스틱 회귀

추가 리소스

저자 소개

벤자민 앤더슨

의견을 추가하다