As 6 hipóteses da regressão logística (com exemplos)


A regressão logística é um método que podemos usar para ajustar um modelo de regressão quando a variável de resposta é binária.

Antes de ajustar um modelo a um conjunto de dados, a regressão logística faz as seguintes suposições:

Suposição nº 1: a variável de resposta é binária

A regressão logística assume que a variável resposta tem apenas dois resultados possíveis. aqui estão alguns exemplos:

  • sim ou não
  • Macho ou fêmea
  • Ter sucesso ou falhar
  • Escrito ou não escrito
  • Maligno ou benigno

Como verificar esta suposição: basta contar o número de resultados únicos que ocorrem na variável de resposta. Se houver mais de dois resultados possíveis, você precisará realizar uma regressão ordinal .

Hipótese nº 2: as observações são independentes

A regressão logística pressupõe que as observações no conjunto de dados são independentes umas das outras. Ou seja, as observações não devem provir de medições repetidas do mesmo indivíduo ou estar relacionadas entre si de alguma forma.

Como testar esta hipótese: A maneira mais simples de testar esta hipótese é criar um gráfico de resíduos versus tempo (ou seja, ordem das observações) e observar se existe ou não uma tendência aleatória. Se não houver um padrão aleatório, esta suposição pode ser violada.

Hipótese nº 3: não há multicolinearidade entre as variáveis explicativas

A regressão logística assume que não existe multicolinearidade séria entre as variáveis explicativas .

A multicolinearidade ocorre quando duas ou mais variáveis explicativas são altamente correlacionadas entre si, de modo que não fornecem informações únicas ou independentes no modelo de regressão. Se o grau de correlação entre as variáveis for alto o suficiente, isso pode causar problemas no ajuste e na interpretação do modelo.

Por exemplo, suponha que você queira realizar uma regressão logística usando o salto vertical máximo como variável de resposta e as seguintes variáveis como variáveis explicativas:

  • Tamanho do jogador
  • Tamanho do jogador
  • Horas gastas praticando por dia

Nesse caso, a altura e o tamanho do calçado provavelmente estão altamente correlacionados, uma vez que pessoas mais altas tendem a ter calçados maiores. Isto significa que a multicolinearidade provavelmente será um problema se usarmos estas duas variáveis na regressão.

Como verificar esta suposição: A forma mais comum de detectar multicolinearidade é usar o fator de inflação de variância (VIF), que mede a correlação e a força da correlação entre variáveis preditoras em um modelo de regressão. Confira este tutorial para uma explicação detalhada de como calcular e interpretar valores VIF.

Suposição nº 4: não existem valores discrepantes extremos

A regressão logística pressupõe que não há valores discrepantes extremos ou observações influentes no conjunto de dados.

Como verificar esta suposição: A maneira mais comum de testar valores discrepantes extremos e observações influentes em um conjunto de dados é calcular a distância de Cook para cada observação. Se realmente houver valores discrepantes, você pode optar por (1) removê-los, (2) substituí-los por um valor como média ou mediana ou (3) simplesmente mantê-los no modelo, mas anotá-los ao relatar a regressão . resultados.

Hipótese nº 5: Existe uma relação linear entre as variáveis explicativas e o logit da variável resposta

A regressão logística assume que existe uma relação linear entre cada variável explicativa e o logit da variável resposta. Lembre-se de que o logit é definido como:

Logit(p) = log(p / (1-p)) onde p é a probabilidade de um resultado positivo.

Como testar esta hipótese: A maneira mais fácil de verificar se esta hipótese é verdadeira é usar um teste de Box-Tidwell.

Premissa nº 6: O tamanho da amostra é grande o suficiente

A regressão logística pressupõe que o tamanho da amostra do conjunto de dados é grande o suficiente para tirar conclusões válidas do modelo de regressão logística ajustado.

Como verificar esta hipótese: Como regra geral, você deve ter no mínimo 10 casos com o resultado menos frequente para cada variável explicativa. Por exemplo, se você tiver 3 variáveis explicativas e a probabilidade esperada do resultado menos frequente for 0,20, então você deverá ter um tamanho de amostra de pelo menos (10*3) / 0,20 = 150 .

Suposições de regressão logística vs. Regressão linear

Ao contrário da regressão linear, a regressão logística não requer:

  • Uma relação linear entre a(s) variável(is) explicativa(s) e a variável de resposta.
  • Os resíduos do modelo a serem distribuídos normalmente.
  • Os resíduos devem ter variância constante, também conhecida como homocedasticidade .

Relacionado: As Quatro Suposições da Regressão Linear

Recursos adicionais

4 exemplos de uso de regressão logística na vida real
Como realizar regressão logística no SPSS
Como realizar regressão logística no Excel
Como realizar regressão logística no Stata

Add a Comment

O seu endereço de email não será publicado. Campos obrigatórios marcados com *