Compreendendo a hipótese nula para regressão logística


A regressão logística é um tipo de modelo de regressão que podemos usar para compreender a relação entre uma ou mais variáveis preditoras e uma variável de resposta quando a variável de resposta é binária.

Se tivermos apenas uma variável preditora e uma variável resposta, podemos usar a regressão logística simples , que utiliza a seguinte fórmula para estimar a relação entre as variáveis:

log[p(X) / (1-p(X))] = β 0 + β 1

A fórmula no lado direito da equação prevê o logaritmo das chances de a variável resposta assumir o valor 1.

A regressão logística simples utiliza as seguintes hipóteses nulas e alternativas:

  • H 0 : β 1 = 0
  • HA : β 1 ≠ 0

A hipótese nula afirma que o coeficiente β 1 é igual a zero. Em outras palavras, não há relação estatisticamente significativa entre a variável preditora x e a variável resposta y.

A hipótese alternativa afirma que β 1 não é igual a zero. Em outras palavras, existe uma relação estatisticamente significativa entre x e y.

Se tivermos múltiplas variáveis preditoras e uma variável resposta, podemos usar regressão logística múltipla , que utiliza a seguinte fórmula para estimar a relação entre as variáveis:

log[p(X) / (1-p(X))] = β 0 + β 1 x 1 + β 2 x 2 + … + β k x k

A regressão logística múltipla usa as seguintes hipóteses nulas e alternativas:

  • H 0 : β 1 = β 2 = … = β k = 0
  • HA : β 1 = β 2 = … = β k ≠ 0

A hipótese nula afirma que todos os coeficientes do modelo são iguais a zero. Em outras palavras, nenhuma das variáveis preditoras possui uma relação estatisticamente significativa com a variável resposta y.

A hipótese alternativa afirma que nem todos os coeficientes são simultaneamente iguais a zero.

Os exemplos a seguir mostram como decidir se rejeita ou não a hipótese nula em modelos de regressão logística simples e de regressão logística múltipla.

Exemplo 1: regressão logística simples

Suponha que um professor queira usar o número de horas estudadas para prever a nota do exame que os alunos de sua turma obterão. Recolhe dados de 20 alunos e ajusta-se a um modelo de regressão logística simples.

Podemos usar o seguinte código em R para ajustar um modelo de regressão logística simples:

 #createdata
df <- data. frame (result=c(0, 0, 1, 0, 0, 0, 1, 0, 0, 1, 0, 1, 1, 1, 1, 1, 1, 1, 1, 1),
                 hours=c(1, 5, 5, 1, 2, 1, 3, 2, 2, 1, 2, 1, 3, 4, 4, 2, 1, 1, 4, 3))

#fit simple logistic regression model
model <- glm(result~hours, family=' binomial ', data=df)

#view summary of model fit
summary(model)

Call:
glm(formula = result ~ hours, family = "binomial", data = df)

Deviance Residuals: 
    Min 1Q Median 3Q Max  
-1.8244 -1.1738 0.7701 0.9460 1.2236  

Coefficients:
            Estimate Std. Error z value Pr(>|z|)
(Intercept) -0.4987 0.9490 -0.526 0.599
hours 0.3906 0.3714 1.052 0.293

(Dispersion parameter for binomial family taken to be 1)

    Null deviance: 26,920 on 19 degrees of freedom
Residual deviance: 25,712 on 18 degrees of freedom
AIC: 29,712

Number of Fisher Scoring iterations: 4

#calculate p-value of overall Chi-Square statistic
1-pchisq(26.920-25.712, 19-18)

[1] 0.2717286

Para determinar se existe uma relação estatisticamente significativa entre as horas estudadas e a nota do exame, precisamos analisar o valor geral do qui-quadrado do modelo e o valor p correspondente.

Podemos usar a seguinte fórmula para calcular o valor geral do qui-quadrado do modelo:

X 2 = (desvio zero – desvio residual) / (Zero Df – Df residual)

O valor p acaba sendo 0,2717286 .

Como esse valor p não é inferior a 0,05, não rejeitamos a hipótese nula. Em outras palavras, não há relação estatisticamente significativa entre horas estudadas e notas em exames.

Exemplo 2: Regressão logística múltipla

Suponha que um professor queira usar o número de horas estudadas e o número de exames preparatórios realizados para prever a nota que os alunos obterão em sua turma. Recolhe dados de 20 alunos e ajusta-se a um modelo de regressão logística múltipla.

Podemos usar o seguinte código em R para ajustar um modelo de regressão logística múltipla:

 #create data
df <- data. frame (result=c(0, 0, 1, 0, 0, 0, 1, 0, 0, 1, 0, 1, 1, 1, 1, 1, 1, 1, 1, 1),
                 hours=c(1, 5, 5, 1, 2, 1, 3, 2, 2, 1, 2, 1, 3, 4, 4, 2, 1, 1, 4, 3),
                 exams=c(1, 2, 2, 1, 2, 1, 1, 3, 2, 4, 3, 2, 2, 4, 4, 5, 4, 4, 3, 5))

#fit simple logistic regression model
model <- glm(result~hours+exams, family=' binomial ', data=df)

#view summary of model fit
summary(model)

Call:
glm(formula = result ~ hours + exams, family = "binomial", data = df)

Deviance Residuals: 
    Min 1Q Median 3Q Max  
-1.5061 -0.6395 0.3347 0.6300 1.7014  

Coefficients:
            Estimate Std. Error z value Pr(>|z|)  
(Intercept) -3.4873 1.8557 -1.879 0.0602 .
hours 0.3844 0.4145 0.927 0.3538  
exams 1.1549 0.5493 2.103 0.0355 *
---
Significant. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1

(Dispersion parameter for binomial family taken to be 1)

    Null deviance: 26,920 on 19 degrees of freedom
Residual deviance: 19,067 on 17 degrees of freedom
AIC: 25,067

Number of Fisher Scoring iterations: 5

#calculate p-value of overall Chi-Square statistic
1-pchisq(26.920-19.067, 19-17)

[1] 0.01971255

O valor p para a estatística qui-quadrado geral do modelo é 0,01971255 .

Como este valor p é inferior a 0,05, rejeitamos a hipótese nula. Ou seja, existe uma relação estatisticamente significativa entre a soma das horas estudadas e dos exames preparatórios realizados e a nota final obtida no exame.

Recursos adicionais

Os tutoriais a seguir fornecem informações adicionais sobre regressão logística:

Introdução à regressão logística
Como relatar resultados de regressão logística
Regressão logística vs regressão linear: as principais diferenças

Add a Comment

O seu endereço de email não será publicado. Campos obrigatórios marcados com *