Понимание нулевой гипотезы логистической регрессии


Логистическая регрессия — это тип модели регрессии, которую мы можем использовать, чтобы понять взаимосвязь между одной или несколькими переменными-предикторами и переменной ответа , когда переменная ответа является двоичной.

Если у нас есть только одна переменная-предиктор и одна переменная отклика, мы можем использовать простую логистическую регрессию , которая использует следующую формулу для оценки взаимосвязи между переменными:

log[p(X)/(1-p(X))] = β 0 + β 1

Формула в правой части уравнения предсказывает логарифм вероятности того, что переменная ответа примет значение 1.

Простая логистическая регрессия использует следующие нулевые и альтернативные гипотезы:

  • Ч 0 : β 1 = 0
  • НА : β 1 ≠ 0

Нулевая гипотеза утверждает, что коэффициент β 1 равен нулю. Другими словами, не существует статистически значимой связи между переменной-предиктором x и переменной ответа y.

Альтернативная гипотеза утверждает, что β 1 не равно нулю. Другими словами, существует статистически значимая связь между x и y.

Если у нас есть несколько переменных-предикторов и переменная отклика, мы можем использовать множественную логистическую регрессию , которая использует следующую формулу для оценки взаимосвязи между переменными:

log[p(X)/(1-p(X))] = β 0 + β 1 x 1 + β 2 x 2 + … + β k x k

Множественная логистическая регрессия использует следующие нулевые и альтернативные гипотезы:

  • ЧАС 0 : β 1 = β 2 = … = β k = 0
  • ЧАС А : β 1 знак равно β 2 = … = β k ≠ 0

Нулевая гипотеза утверждает, что все коэффициенты модели равны нулю. Другими словами, ни одна из переменных-предсказателей не имеет статистически значимой связи с переменной ответа y.

Альтернативная гипотеза утверждает, что не все коэффициенты одновременно равны нулю.

В следующих примерах показано, как решить, отклонять или не отклонять нулевую гипотезу в моделях простой логистической регрессии и множественной логистической регрессии.

Пример 1: простая логистическая регрессия

Предположим, профессор хочет использовать количество изученных часов, чтобы спрогнозировать оценку на экзамене, которую получат студенты его класса. Он собирает данные от 20 студентов и соответствует простой модели логистической регрессии.

Мы можем использовать следующий код в R, чтобы соответствовать простой модели логистической регрессии:

 #createdata
df <- data. frame (result=c(0, 0, 1, 0, 0, 0, 1, 0, 0, 1, 0, 1, 1, 1, 1, 1, 1, 1, 1, 1),
                 hours=c(1, 5, 5, 1, 2, 1, 3, 2, 2, 1, 2, 1, 3, 4, 4, 2, 1, 1, 4, 3))

#fit simple logistic regression model
model <- glm(result~hours, family=' binomial ', data=df)

#view summary of model fit
summary(model)

Call:
glm(formula = result ~ hours, family = "binomial", data = df)

Deviance Residuals: 
    Min 1Q Median 3Q Max  
-1.8244 -1.1738 0.7701 0.9460 1.2236  

Coefficients:
            Estimate Std. Error z value Pr(>|z|)
(Intercept) -0.4987 0.9490 -0.526 0.599
hours 0.3906 0.3714 1.052 0.293

(Dispersion parameter for binomial family taken to be 1)

    Null deviance: 26,920 on 19 degrees of freedom
Residual deviance: 25,712 on 18 degrees of freedom
AIC: 29,712

Number of Fisher Scoring iterations: 4

#calculate p-value of overall Chi-Square statistic
1-pchisq(26.920-25.712, 19-18)

[1] 0.2717286

Чтобы определить, существует ли статистически значимая связь между учебными часами и оценками на экзамене, нам необходимо проанализировать общее значение хи-квадрат модели и соответствующее значение p.

Мы можем использовать следующую формулу для расчета общего значения хи-квадрат модели:

X 2 = (Нулевое отклонение – Остаточное отклонение) / (Нулевое Df – Остаточное Df)

Значение p оказывается 0,2717286 .

Поскольку это значение p не меньше 0,05, мы не можем отвергнуть нулевую гипотезу. Другими словами, не существует статистически значимой связи между учебными часами и результатами экзаменов.

Пример 2: Множественная логистическая регрессия

Предположим, профессор хочет использовать количество учебных часов и количество сданных подготовительных экзаменов, чтобы спрогнозировать оценки, которые студенты получат в его классе. Он собирает данные от 20 студентов и соответствует модели множественной логистической регрессии.

Мы можем использовать следующий код в R, чтобы соответствовать модели множественной логистической регрессии:

 #create data
df <- data. frame (result=c(0, 0, 1, 0, 0, 0, 1, 0, 0, 1, 0, 1, 1, 1, 1, 1, 1, 1, 1, 1),
                 hours=c(1, 5, 5, 1, 2, 1, 3, 2, 2, 1, 2, 1, 3, 4, 4, 2, 1, 1, 4, 3),
                 exams=c(1, 2, 2, 1, 2, 1, 1, 3, 2, 4, 3, 2, 2, 4, 4, 5, 4, 4, 3, 5))

#fit simple logistic regression model
model <- glm(result~hours+exams, family=' binomial ', data=df)

#view summary of model fit
summary(model)

Call:
glm(formula = result ~ hours + exams, family = "binomial", data = df)

Deviance Residuals: 
    Min 1Q Median 3Q Max  
-1.5061 -0.6395 0.3347 0.6300 1.7014  

Coefficients:
            Estimate Std. Error z value Pr(>|z|)  
(Intercept) -3.4873 1.8557 -1.879 0.0602 .
hours 0.3844 0.4145 0.927 0.3538  
exams 1.1549 0.5493 2.103 0.0355 *
---
Significant. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1

(Dispersion parameter for binomial family taken to be 1)

    Null deviance: 26,920 on 19 degrees of freedom
Residual deviance: 19,067 on 17 degrees of freedom
AIC: 25,067

Number of Fisher Scoring iterations: 5

#calculate p-value of overall Chi-Square statistic
1-pchisq(26.920-19.067, 19-17)

[1] 0.01971255

Значение p для общей статистики хи-квадрат модели оказывается равным 0,01971255 .

Поскольку это значение p меньше 0,05, мы отвергаем нулевую гипотезу. Другими словами, существует статистически значимая связь между суммой учебных часов и сданных подготовительных экзаменов и итоговой оценкой, полученной на экзамене.

Дополнительные ресурсы

Следующие руководства предоставляют дополнительную информацию о логистической регрессии:

Введение в логистическую регрессию
Как сообщить о результатах логистической регрессии
Логистическая регрессия против линейной регрессии: основные различия

Добавить комментарий

Ваш адрес email не будет опубликован. Обязательные поля помечены *