로지스틱 회귀 분석에 대한 귀무 가설 이해
로지스틱 회귀는 응답 변수가 이진일 때 하나 이상의 예측 변수와 응답 변수 간의 관계를 이해하는 데 사용할 수 있는 회귀 모델 유형입니다.
하나의 예측 변수와 하나의 응답 변수만 있는 경우 다음 공식을 사용하여 변수 간의 관계를 추정하는 단순 로지스틱 회귀를 사용할 수 있습니다.
로그[p(X) / (1-p(X))] = β 0 + β 1
방정식 오른쪽의 공식은 응답 변수가 값 1을 취할 확률의 로그를 예측합니다.
단순 로지스틱 회귀에서는 다음과 같은 귀무 가설과 대립 가설을 사용합니다.
- H 0 : β 1 = 0
- HA : β 1 ≠ 0
귀무 가설은 계수 β 1 이 0과 같다는 것입니다. 즉, 예측 변수 x와 반응 변수 y 사이에는 통계적으로 유의미한 관계가 없습니다.
대립 가설은 β 1 이 0이 아니라는 것입니다. 즉, x와 y 사이에는 통계적으로 유의미한 관계가 있습니다 .
예측 변수와 응답 변수가 여러 개인 경우 다음 공식을 사용하여 변수 간의 관계를 추정하는 다중 로지스틱 회귀를 사용할 수 있습니다.
로그[p(X) / (1-p(X))] = β 0 + β 1 x 1 + β 2 x 2 + … + β k x k
다중 로지스틱 회귀에서는 다음과 같은 귀무 가설과 대립 가설을 사용합니다.
- H 0 : β 1 = β 2 = … = β k = 0
- H A : β 1 = β 2 = … = β k ≠ 0
귀무 가설은 모델의 모든 계수가 0과 같다는 것입니다. 즉, 예측 변수 중 어느 것도 응답 변수 y와 통계적으로 유의미한 관계를 갖지 않습니다.
대립 가설은 모든 계수가 동시에 0이 아니라는 것입니다.
다음 예에서는 단순 로지스틱 회귀 모델과 다중 로지스틱 회귀 모델에서 귀무 가설을 기각할지 여부를 결정하는 방법을 보여줍니다.
예시 1: 단순 로지스틱 회귀
교수가 수업 시간을 사용하여 자신의 반 학생들이 달성할 시험 성적을 예측하려고 한다고 가정해 보겠습니다. 20명의 학생으로부터 데이터를 수집하고 단순 로지스틱 회귀 모델에 적합합니다.
간단한 로지스틱 회귀 모델을 맞추기 위해 R에서 다음 코드를 사용할 수 있습니다.
#createdata df <- data. frame (result=c(0, 0, 1, 0, 0, 0, 1, 0, 0, 1, 0, 1, 1, 1, 1, 1, 1, 1, 1, 1), hours=c(1, 5, 5, 1, 2, 1, 3, 2, 2, 1, 2, 1, 3, 4, 4, 2, 1, 1, 4, 3)) #fit simple logistic regression model model <- glm(result~hours, family=' binomial ', data=df) #view summary of model fit summary(model) Call: glm(formula = result ~ hours, family = "binomial", data = df) Deviance Residuals: Min 1Q Median 3Q Max -1.8244 -1.1738 0.7701 0.9460 1.2236 Coefficients: Estimate Std. Error z value Pr(>|z|) (Intercept) -0.4987 0.9490 -0.526 0.599 hours 0.3906 0.3714 1.052 0.293 (Dispersion parameter for binomial family taken to be 1) Null deviance: 26,920 on 19 degrees of freedom Residual deviance: 25,712 on 18 degrees of freedom AIC: 29,712 Number of Fisher Scoring iterations: 4 #calculate p-value of overall Chi-Square statistic 1-pchisq(26.920-25.712, 19-18) [1] 0.2717286
공부 시간과 시험 점수 사이에 통계적으로 유의미한 관계가 있는지 확인하려면 모델의 전체 카이제곱 값과 해당 p-값을 분석해야 합니다.
다음 공식을 사용하여 모델의 전체 카이제곱 값을 계산할 수 있습니다.
X 2 = (0 이탈도 – 잔차 이탈도) / (0 Df – 잔차 Df)
p-값은 0.2717286 으로 나타났습니다.
이 p-값은 0.05 이상이므로 귀무가설을 기각할 수 없습니다. 즉, 공부한 시간과 시험 점수 사이에는 통계적으로 유의미한 관계가 없습니다.
예시 2: 다중 로지스틱 회귀
교수가 수업 시간과 준비 시험 횟수를 사용하여 학생들이 수업에서 받을 성적을 예측하려고 한다고 가정해 보겠습니다. 20명의 학생으로부터 데이터를 수집하고 다중 로지스틱 회귀 모델에 적합합니다.
R에서 다음 코드를 사용하여 다중 로지스틱 회귀 모델을 맞출 수 있습니다.
#create data df <- data. frame (result=c(0, 0, 1, 0, 0, 0, 1, 0, 0, 1, 0, 1, 1, 1, 1, 1, 1, 1, 1, 1), hours=c(1, 5, 5, 1, 2, 1, 3, 2, 2, 1, 2, 1, 3, 4, 4, 2, 1, 1, 4, 3), exams=c(1, 2, 2, 1, 2, 1, 1, 3, 2, 4, 3, 2, 2, 4, 4, 5, 4, 4, 3, 5)) #fit simple logistic regression model model <- glm(result~hours+exams, family=' binomial ', data=df) #view summary of model fit summary(model) Call: glm(formula = result ~ hours + exams, family = "binomial", data = df) Deviance Residuals: Min 1Q Median 3Q Max -1.5061 -0.6395 0.3347 0.6300 1.7014 Coefficients: Estimate Std. Error z value Pr(>|z|) (Intercept) -3.4873 1.8557 -1.879 0.0602 . hours 0.3844 0.4145 0.927 0.3538 exams 1.1549 0.5493 2.103 0.0355 * --- Significant. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1 (Dispersion parameter for binomial family taken to be 1) Null deviance: 26,920 on 19 degrees of freedom Residual deviance: 19,067 on 17 degrees of freedom AIC: 25,067 Number of Fisher Scoring iterations: 5 #calculate p-value of overall Chi-Square statistic 1-pchisq(26.920-19.067, 19-17) [1] 0.01971255
모델의 전체 카이제곱 통계량에 대한 p-값은 0.01971255 로 나타났습니다.
이 p-값은 0.05보다 작으므로 귀무가설을 기각합니다. 즉, 공부한 시간과 치른 준비 시험의 조합과 시험에서 얻은 최종 성적 사이에는 통계적으로 유의미한 관계가 있습니다.
추가 리소스
다음 자습서에서는 로지스틱 회귀에 대한 추가 정보를 제공합니다.