Розуміння нульової гіпотези для логістичної регресії


Логістична регресія – це тип регресійної моделі, який ми можемо використовувати для розуміння зв’язку між однією або декількома змінними предиктора та змінною відповіді , якщо змінна відповіді двійкова.

Якщо ми маємо лише одну змінну-прогностику та одну змінну відповіді, ми можемо використати просту логістичну регресію , яка використовує таку формулу для оцінки зв’язку між змінними:

log[p(X) / (1-p(X))] = β 0 + β 1

Формула в правій частині рівняння передбачає логарифм шансів того, що змінна відповіді набере значення 1.

Проста логістична регресія використовує такі нульові та альтернативні гіпотези:

  • H 0 : β 1 = 0
  • H A : β 1 ≠ 0

Нульова гіпотеза стверджує, що коефіцієнт β 1 дорівнює нулю. Іншими словами, немає статистично значущого зв’язку між змінною предиктора x і змінною відповіді y.

Альтернативна гіпотеза стверджує, що β 1 не дорівнює нулю. Іншими словами, між x і y існує статистично значущий зв’язок.

Якщо у нас є кілька змінних предикторів і змінна відповіді, ми можемо використати множинну логістичну регресію , яка використовує таку формулу для оцінки зв’язку між змінними:

log[p(X) / (1-p(X))] = β 0 + β 1 x 1 + β 2 x 2 + … + β k x k

Множинна логістична регресія використовує такі нульові та альтернативні гіпотези:

  • H 0 : β 1 = β 2 = … = β k = 0
  • H A : β 1 = β 2 = … = β k ≠ 0

Нульова гіпотеза стверджує, що всі коефіцієнти в моделі дорівнюють нулю. Іншими словами, жодна з прогностичних змінних не має статистично значущого зв’язку зі змінною відповіді y.

Альтернативна гіпотеза стверджує, що не всі коефіцієнти одночасно дорівнюють нулю.

У наведених нижче прикладах показано, як вирішити, чи відхиляти нульову гіпотезу в моделях простої логістичної регресії та множинної логістичної регресії.

Приклад 1: проста логістична регресія

Припустимо, професор хоче використати кількість вивчених годин, щоб передбачити оцінку на іспиті, яку отримають студенти його класу. Він збирає дані від 20 студентів і відповідає простій моделі логістичної регресії.

Ми можемо використати наступний код у R, щоб підібрати просту модель логістичної регресії:

 #createdata
df <- data. frame (result=c(0, 0, 1, 0, 0, 0, 1, 0, 0, 1, 0, 1, 1, 1, 1, 1, 1, 1, 1, 1),
                 hours=c(1, 5, 5, 1, 2, 1, 3, 2, 2, 1, 2, 1, 3, 4, 4, 2, 1, 1, 4, 3))

#fit simple logistic regression model
model <- glm(result~hours, family=' binomial ', data=df)

#view summary of model fit
summary(model)

Call:
glm(formula = result ~ hours, family = "binomial", data = df)

Deviance Residuals: 
    Min 1Q Median 3Q Max  
-1.8244 -1.1738 0.7701 0.9460 1.2236  

Coefficients:
            Estimate Std. Error z value Pr(>|z|)
(Intercept) -0.4987 0.9490 -0.526 0.599
hours 0.3906 0.3714 1.052 0.293

(Dispersion parameter for binomial family taken to be 1)

    Null deviance: 26,920 on 19 degrees of freedom
Residual deviance: 25,712 on 18 degrees of freedom
AIC: 29,712

Number of Fisher Scoring iterations: 4

#calculate p-value of overall Chi-Square statistic
1-pchisq(26.920-25.712, 19-18)

[1] 0.2717286

Щоб визначити, чи існує статистично значущий зв’язок між годинами навчання та результатом іспиту, нам потрібно проаналізувати загальне значення хі-квадрат моделі та відповідне значення p.

Ми можемо використати наступну формулу для розрахунку загального значення хі-квадрат моделі:

X 2 = (Нульове відхилення – Залишкове відхилення) / (Нульове Df – Залишкове Df)

P-значення виявляється рівним 0,2717286 .

Оскільки це p-значення не менше 0,05, ми не можемо відхилити нульову гіпотезу. Іншими словами, немає статистично значущого зв’язку між годинами навчання та результатами іспиту.

Приклад 2: Множинна логістична регресія

Припустімо, що професор хоче використовувати кількість вивчених годин і кількість складених підготовчих іспитів, щоб передбачити оцінку, яку отримають студенти в його класі. Він збирає дані від 20 студентів і відповідає моделі множинної логістичної регресії.

Ми можемо використовувати наступний код у R, щоб відповідати моделі множинної логістичної регресії:

 #create data
df <- data. frame (result=c(0, 0, 1, 0, 0, 0, 1, 0, 0, 1, 0, 1, 1, 1, 1, 1, 1, 1, 1, 1),
                 hours=c(1, 5, 5, 1, 2, 1, 3, 2, 2, 1, 2, 1, 3, 4, 4, 2, 1, 1, 4, 3),
                 exams=c(1, 2, 2, 1, 2, 1, 1, 3, 2, 4, 3, 2, 2, 4, 4, 5, 4, 4, 3, 5))

#fit simple logistic regression model
model <- glm(result~hours+exams, family=' binomial ', data=df)

#view summary of model fit
summary(model)

Call:
glm(formula = result ~ hours + exams, family = "binomial", data = df)

Deviance Residuals: 
    Min 1Q Median 3Q Max  
-1.5061 -0.6395 0.3347 0.6300 1.7014  

Coefficients:
            Estimate Std. Error z value Pr(>|z|)  
(Intercept) -3.4873 1.8557 -1.879 0.0602 .
hours 0.3844 0.4145 0.927 0.3538  
exams 1.1549 0.5493 2.103 0.0355 *
---
Significant. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1

(Dispersion parameter for binomial family taken to be 1)

    Null deviance: 26,920 on 19 degrees of freedom
Residual deviance: 19,067 on 17 degrees of freedom
AIC: 25,067

Number of Fisher Scoring iterations: 5

#calculate p-value of overall Chi-Square statistic
1-pchisq(26.920-19.067, 19-17)

[1] 0.01971255

P-значення для загальної статистики хі-квадрат моделі виявляється рівним 0,01971255 .

Оскільки це p-значення менше 0,05, ми відхиляємо нульову гіпотезу. Іншими словами, існує статистично значущий зв’язок між кількістю вивчених годин і складених підготовчих іспитів і підсумковою оцінкою, отриманою на іспиті.

Додаткові ресурси

Наступні посібники надають додаткову інформацію про логістичну регресію:

Вступ до логістичної регресії
Як звітувати про результати логістичної регресії
Логістична регресія проти лінійної регресії: основні відмінності

Додати коментар

Ваша e-mail адреса не оприлюднюватиметься. Обов’язкові поля позначені *