Compreendendo a hipótese nula para regressão logística
A regressão logística é um tipo de modelo de regressão que podemos usar para compreender a relação entre uma ou mais variáveis preditoras e uma variável de resposta quando a variável de resposta é binária.
Se tivermos apenas uma variável preditora e uma variável resposta, podemos usar a regressão logística simples , que utiliza a seguinte fórmula para estimar a relação entre as variáveis:
log[p(X) / (1-p(X))] = β 0 + β 1
A fórmula no lado direito da equação prevê o logaritmo das chances de a variável resposta assumir o valor 1.
A regressão logística simples utiliza as seguintes hipóteses nulas e alternativas:
- H 0 : β 1 = 0
- HA : β 1 ≠ 0
A hipótese nula afirma que o coeficiente β 1 é igual a zero. Em outras palavras, não há relação estatisticamente significativa entre a variável preditora x e a variável resposta y.
A hipótese alternativa afirma que β 1 não é igual a zero. Em outras palavras, existe uma relação estatisticamente significativa entre x e y.
Se tivermos múltiplas variáveis preditoras e uma variável resposta, podemos usar regressão logística múltipla , que utiliza a seguinte fórmula para estimar a relação entre as variáveis:
log[p(X) / (1-p(X))] = β 0 + β 1 x 1 + β 2 x 2 + … + β k x k
A regressão logística múltipla usa as seguintes hipóteses nulas e alternativas:
- H 0 : β 1 = β 2 = … = β k = 0
- HA : β 1 = β 2 = … = β k ≠ 0
A hipótese nula afirma que todos os coeficientes do modelo são iguais a zero. Em outras palavras, nenhuma das variáveis preditoras possui uma relação estatisticamente significativa com a variável resposta y.
A hipótese alternativa afirma que nem todos os coeficientes são simultaneamente iguais a zero.
Os exemplos a seguir mostram como decidir se rejeita ou não a hipótese nula em modelos de regressão logística simples e de regressão logística múltipla.
Exemplo 1: regressão logística simples
Suponha que um professor queira usar o número de horas estudadas para prever a nota do exame que os alunos de sua turma obterão. Recolhe dados de 20 alunos e ajusta-se a um modelo de regressão logística simples.
Podemos usar o seguinte código em R para ajustar um modelo de regressão logística simples:
#createdata df <- data. frame (result=c(0, 0, 1, 0, 0, 0, 1, 0, 0, 1, 0, 1, 1, 1, 1, 1, 1, 1, 1, 1), hours=c(1, 5, 5, 1, 2, 1, 3, 2, 2, 1, 2, 1, 3, 4, 4, 2, 1, 1, 4, 3)) #fit simple logistic regression model model <- glm(result~hours, family=' binomial ', data=df) #view summary of model fit summary(model) Call: glm(formula = result ~ hours, family = "binomial", data = df) Deviance Residuals: Min 1Q Median 3Q Max -1.8244 -1.1738 0.7701 0.9460 1.2236 Coefficients: Estimate Std. Error z value Pr(>|z|) (Intercept) -0.4987 0.9490 -0.526 0.599 hours 0.3906 0.3714 1.052 0.293 (Dispersion parameter for binomial family taken to be 1) Null deviance: 26,920 on 19 degrees of freedom Residual deviance: 25,712 on 18 degrees of freedom AIC: 29,712 Number of Fisher Scoring iterations: 4 #calculate p-value of overall Chi-Square statistic 1-pchisq(26.920-25.712, 19-18) [1] 0.2717286
Para determinar se existe uma relação estatisticamente significativa entre as horas estudadas e a nota do exame, precisamos analisar o valor geral do qui-quadrado do modelo e o valor p correspondente.
Podemos usar a seguinte fórmula para calcular o valor geral do qui-quadrado do modelo:
X 2 = (desvio zero – desvio residual) / (Zero Df – Df residual)
O valor p acaba sendo 0,2717286 .
Como esse valor p não é inferior a 0,05, não rejeitamos a hipótese nula. Em outras palavras, não há relação estatisticamente significativa entre horas estudadas e notas em exames.
Exemplo 2: Regressão logística múltipla
Suponha que um professor queira usar o número de horas estudadas e o número de exames preparatórios realizados para prever a nota que os alunos obterão em sua turma. Recolhe dados de 20 alunos e ajusta-se a um modelo de regressão logística múltipla.
Podemos usar o seguinte código em R para ajustar um modelo de regressão logística múltipla:
#create data df <- data. frame (result=c(0, 0, 1, 0, 0, 0, 1, 0, 0, 1, 0, 1, 1, 1, 1, 1, 1, 1, 1, 1), hours=c(1, 5, 5, 1, 2, 1, 3, 2, 2, 1, 2, 1, 3, 4, 4, 2, 1, 1, 4, 3), exams=c(1, 2, 2, 1, 2, 1, 1, 3, 2, 4, 3, 2, 2, 4, 4, 5, 4, 4, 3, 5)) #fit simple logistic regression model model <- glm(result~hours+exams, family=' binomial ', data=df) #view summary of model fit summary(model) Call: glm(formula = result ~ hours + exams, family = "binomial", data = df) Deviance Residuals: Min 1Q Median 3Q Max -1.5061 -0.6395 0.3347 0.6300 1.7014 Coefficients: Estimate Std. Error z value Pr(>|z|) (Intercept) -3.4873 1.8557 -1.879 0.0602 . hours 0.3844 0.4145 0.927 0.3538 exams 1.1549 0.5493 2.103 0.0355 * --- Significant. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1 (Dispersion parameter for binomial family taken to be 1) Null deviance: 26,920 on 19 degrees of freedom Residual deviance: 19,067 on 17 degrees of freedom AIC: 25,067 Number of Fisher Scoring iterations: 5 #calculate p-value of overall Chi-Square statistic 1-pchisq(26.920-19.067, 19-17) [1] 0.01971255
O valor p para a estatística qui-quadrado geral do modelo é 0,01971255 .
Como este valor p é inferior a 0,05, rejeitamos a hipótese nula. Ou seja, existe uma relação estatisticamente significativa entre a soma das horas estudadas e dos exames preparatórios realizados e a nota final obtida no exame.
Recursos adicionais
Os tutoriais a seguir fornecem informações adicionais sobre regressão logística:
Introdução à regressão logística
Como relatar resultados de regressão logística
Regressão logística vs regressão linear: as principais diferenças