Розуміння нульової гіпотези для логістичної регресії
Логістична регресія – це тип регресійної моделі, який ми можемо використовувати для розуміння зв’язку між однією або декількома змінними предиктора та змінною відповіді , якщо змінна відповіді двійкова.
Якщо ми маємо лише одну змінну-прогностику та одну змінну відповіді, ми можемо використати просту логістичну регресію , яка використовує таку формулу для оцінки зв’язку між змінними:
log[p(X) / (1-p(X))] = β 0 + β 1
Формула в правій частині рівняння передбачає логарифм шансів того, що змінна відповіді набере значення 1.
Проста логістична регресія використовує такі нульові та альтернативні гіпотези:
- H 0 : β 1 = 0
- H A : β 1 ≠ 0
Нульова гіпотеза стверджує, що коефіцієнт β 1 дорівнює нулю. Іншими словами, немає статистично значущого зв’язку між змінною предиктора x і змінною відповіді y.
Альтернативна гіпотеза стверджує, що β 1 не дорівнює нулю. Іншими словами, між x і y існує статистично значущий зв’язок.
Якщо у нас є кілька змінних предикторів і змінна відповіді, ми можемо використати множинну логістичну регресію , яка використовує таку формулу для оцінки зв’язку між змінними:
log[p(X) / (1-p(X))] = β 0 + β 1 x 1 + β 2 x 2 + … + β k x k
Множинна логістична регресія використовує такі нульові та альтернативні гіпотези:
- H 0 : β 1 = β 2 = … = β k = 0
- H A : β 1 = β 2 = … = β k ≠ 0
Нульова гіпотеза стверджує, що всі коефіцієнти в моделі дорівнюють нулю. Іншими словами, жодна з прогностичних змінних не має статистично значущого зв’язку зі змінною відповіді y.
Альтернативна гіпотеза стверджує, що не всі коефіцієнти одночасно дорівнюють нулю.
У наведених нижче прикладах показано, як вирішити, чи відхиляти нульову гіпотезу в моделях простої логістичної регресії та множинної логістичної регресії.
Приклад 1: проста логістична регресія
Припустимо, професор хоче використати кількість вивчених годин, щоб передбачити оцінку на іспиті, яку отримають студенти його класу. Він збирає дані від 20 студентів і відповідає простій моделі логістичної регресії.
Ми можемо використати наступний код у R, щоб підібрати просту модель логістичної регресії:
#createdata df <- data. frame (result=c(0, 0, 1, 0, 0, 0, 1, 0, 0, 1, 0, 1, 1, 1, 1, 1, 1, 1, 1, 1), hours=c(1, 5, 5, 1, 2, 1, 3, 2, 2, 1, 2, 1, 3, 4, 4, 2, 1, 1, 4, 3)) #fit simple logistic regression model model <- glm(result~hours, family=' binomial ', data=df) #view summary of model fit summary(model) Call: glm(formula = result ~ hours, family = "binomial", data = df) Deviance Residuals: Min 1Q Median 3Q Max -1.8244 -1.1738 0.7701 0.9460 1.2236 Coefficients: Estimate Std. Error z value Pr(>|z|) (Intercept) -0.4987 0.9490 -0.526 0.599 hours 0.3906 0.3714 1.052 0.293 (Dispersion parameter for binomial family taken to be 1) Null deviance: 26,920 on 19 degrees of freedom Residual deviance: 25,712 on 18 degrees of freedom AIC: 29,712 Number of Fisher Scoring iterations: 4 #calculate p-value of overall Chi-Square statistic 1-pchisq(26.920-25.712, 19-18) [1] 0.2717286
Щоб визначити, чи існує статистично значущий зв’язок між годинами навчання та результатом іспиту, нам потрібно проаналізувати загальне значення хі-квадрат моделі та відповідне значення p.
Ми можемо використати наступну формулу для розрахунку загального значення хі-квадрат моделі:
X 2 = (Нульове відхилення – Залишкове відхилення) / (Нульове Df – Залишкове Df)
P-значення виявляється рівним 0,2717286 .
Оскільки це p-значення не менше 0,05, ми не можемо відхилити нульову гіпотезу. Іншими словами, немає статистично значущого зв’язку між годинами навчання та результатами іспиту.
Приклад 2: Множинна логістична регресія
Припустімо, що професор хоче використовувати кількість вивчених годин і кількість складених підготовчих іспитів, щоб передбачити оцінку, яку отримають студенти в його класі. Він збирає дані від 20 студентів і відповідає моделі множинної логістичної регресії.
Ми можемо використовувати наступний код у R, щоб відповідати моделі множинної логістичної регресії:
#create data df <- data. frame (result=c(0, 0, 1, 0, 0, 0, 1, 0, 0, 1, 0, 1, 1, 1, 1, 1, 1, 1, 1, 1), hours=c(1, 5, 5, 1, 2, 1, 3, 2, 2, 1, 2, 1, 3, 4, 4, 2, 1, 1, 4, 3), exams=c(1, 2, 2, 1, 2, 1, 1, 3, 2, 4, 3, 2, 2, 4, 4, 5, 4, 4, 3, 5)) #fit simple logistic regression model model <- glm(result~hours+exams, family=' binomial ', data=df) #view summary of model fit summary(model) Call: glm(formula = result ~ hours + exams, family = "binomial", data = df) Deviance Residuals: Min 1Q Median 3Q Max -1.5061 -0.6395 0.3347 0.6300 1.7014 Coefficients: Estimate Std. Error z value Pr(>|z|) (Intercept) -3.4873 1.8557 -1.879 0.0602 . hours 0.3844 0.4145 0.927 0.3538 exams 1.1549 0.5493 2.103 0.0355 * --- Significant. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1 (Dispersion parameter for binomial family taken to be 1) Null deviance: 26,920 on 19 degrees of freedom Residual deviance: 19,067 on 17 degrees of freedom AIC: 25,067 Number of Fisher Scoring iterations: 5 #calculate p-value of overall Chi-Square statistic 1-pchisq(26.920-19.067, 19-17) [1] 0.01971255
P-значення для загальної статистики хі-квадрат моделі виявляється рівним 0,01971255 .
Оскільки це p-значення менше 0,05, ми відхиляємо нульову гіпотезу. Іншими словами, існує статистично значущий зв’язок між кількістю вивчених годин і складених підготовчих іспитів і підсумковою оцінкою, отриманою на іспиті.
Додаткові ресурси
Наступні посібники надають додаткову інформацію про логістичну регресію:
Вступ до логістичної регресії
Як звітувати про результати логістичної регресії
Логістична регресія проти лінійної регресії: основні відмінності