7 tipos comuns de regressão (e quando usá-los)


A análise de regressão é uma das técnicas mais comumente usadas em estatística.

O objetivo fundamental da análise de regressão é ajustar um modelo que melhor descreva o relacionamento entre uma ou mais variáveis preditoras e uma variável de resposta .

Neste artigo, compartilhamos os 7 modelos de regressão mais comumente usados na vida real e quando usar cada tipo de regressão.

1. Regressão linear

A regressão linear é usada para ajustar um modelo de regressão que descreve a relação entre uma ou mais variáveis preditoras e uma variável de resposta numérica.

Use quando:

  • A relação entre a(s) variável(ões) preditora(s) e a variável resposta é razoavelmente linear.
  • A variável de resposta é uma variável numérica contínua.

Exemplo: Uma empresa de varejo pode ajustar um modelo de regressão linear usando gastos com publicidade para prever as vendas totais.

Dado que a relação entre estas duas variáveis é provavelmente linear (mais dinheiro gasto em publicidade geralmente resulta em mais vendas) e a variável de resposta (vendas totais) é uma variável numérica contínua, faz sentido ajustar um modelo de regressão linear.

Recurso: Uma Introdução à Regressão Linear Múltipla

2. Regressão logística

A regressão logística é usada para ajustar um modelo de regressão que descreve o relacionamento entre uma ou mais variáveis preditoras e uma variável de resposta binária.

Use quando:

  • A variável de resposta é binária: só pode assumir dois valores.

Exemplo: Pesquisadores médicos podem ajustar um modelo de regressão logística usando exercícios e hábitos de fumar para prever a probabilidade de um indivíduo ter um ataque cardíaco.

Como a variável resposta (ataque cardíaco) é binária – um indivíduo sofre um ataque cardíaco ou não – é apropriado ajustar um modelo de regressão logística.

Recurso: Uma Introdução à Regressão Logística

3. Regressão polinomial

A regressão polinomial é usada para ajustar um modelo de regressão que descreve a relação entre uma ou mais variáveis preditoras e uma variável de resposta numérica.

Use quando:

  • A relação entre a(s) variável(ões) preditora(s) e a variável de resposta não é linear.
  • A variável de resposta é uma variável numérica contínua.

Exemplo: Os psicólogos podem ajustar uma regressão polinomial usando “horas trabalhadas” para prever a “felicidade geral” dos funcionários de um determinado setor.

A relação entre essas duas variáveis é provavelmente não linear. Ou seja, à medida que o número de horas aumenta, um indivíduo pode reportar maior felicidade, mas para além de um certo número de horas trabalhadas, é provável que a felicidade global diminua. Como esta relação entre a variável preditora e a variável resposta é não linear, faz sentido ajustar um modelo de regressão polinomial.

Recurso: Uma Introdução à Regressão Polinomial

4. Regressão do cume

A regressão Ridge é usada para ajustar um modelo de regressão que descreve a relação entre uma ou mais variáveis preditoras e uma variável de resposta numérica.

Use quando:

  • As variáveis preditoras são altamente correlacionadas e a multicolinearidade torna-se um problema.
  • A variável de resposta é uma variável numérica contínua.

Exemplo: um cientista de dados de basquete pode ajustar um modelo de regressão de cume usando variáveis preditoras como pontos, assistências e rebotes para prever os salários dos jogadores.

É provável que as variáveis preditoras estejam altamente correlacionadas, uma vez que os melhores jogadores tendem a ter mais pontos, assistências e rebotes. Portanto, é provável que a multicolinearidade seja um problema, portanto podemos minimizar esse problema usando a regressão de crista.

Recurso: Uma introdução à regressão de Ridge

5. Regressão do Laço

A regressão Lasso é muito semelhante à regressão Ridge e é usada para ajustar um modelo de regressão que descreve a relação entre uma ou mais variáveis preditoras e uma variável de resposta numérica.

Use quando:

  • As variáveis preditoras são altamente correlacionadas e a multicolinearidade torna-se um problema.
  • A variável de resposta é uma variável numérica contínua.

Exemplo: Um economista pode ajustar um modelo de regressão laço utilizando variáveis preditoras como o total de anos de escolaridade, horas trabalhadas e custo de vida para prever o rendimento familiar.

As variáveis preditoras estão provavelmente altamente correlacionadas, uma vez que indivíduos mais instruídos também tendem a viver em cidades com custos de vida mais elevados e a trabalhar mais horas. Portanto, é provável que a multicolinearidade seja um problema, portanto podemos minimizar esse problema usando a regressão laço.

Observe que a regressão Lasso e a regressão Ridge são bastante semelhantes. Quando a multicolinearidade é um problema em um conjunto de dados, é recomendado ajustar um modelo de regressão Lasso e Ridge para ver qual modelo funciona melhor.

Recurso: Uma Introdução à Regressão Lasso

6. Regressão de Poisson

A regressão de Poisson é usada para ajustar um modelo de regressão que descreve a relação entre uma ou mais variáveis preditoras e uma variável de resposta.

Use quando:

  • A variável de resposta são dados de “contagem” – por exemplo, o número de dias ensolarados por semana, o número de acidentes rodoviários por ano, o número de chamadas feitas por dia, etc.

Exemplo: Uma universidade pode usar a regressão de Poisson para examinar o número de alunos que se formaram em um programa universitário específico com base em seu GPA quando ingressaram no programa e em seu gênero.

Neste caso, como a variável resposta são dados de contagem (podemos “contar” o número de alunos concluintes – 200, 250, 300, 413, etc.), é apropriado utilizar a regressão de Poisson.

Recurso: Uma introdução à regressão de Poisson

7. Regressão quantílica

A regressão quantílica é usada para ajustar um modelo de regressão que descreve a relação entre uma ou mais variáveis preditoras e uma variável de resposta.

Use quando:

  • Gostaríamos de estimar um quantil ou percentil específico da variável de resposta – por exemplo, o percentil 90, o percentil 95, etc.

Exemplo: um professor pode usar a regressão quantílica para prever o percentil 90 esperado das notas dos exames com base no número de horas estudadas:

Nesse caso, como o professor deseja prever um percentil específico da variável resposta (notas dos exames), é adequado utilizar a regressão quantílica.

Recurso: Uma Introdução à Regressão Quantílica

Recursos adicionais

4 exemplos de uso de regressão linear na vida real
4 exemplos de uso de regressão logística na vida real
ANOVA vs regressão: qual a diferença?
O guia completo: como relatar resultados de regressão

Add a Comment

O seu endereço de email não será publicado. Campos obrigatórios marcados com *