7 tipos comuns de regressão (e quando usá-los)
A análise de regressão é uma das técnicas mais comumente usadas em estatística.
O objetivo fundamental da análise de regressão é ajustar um modelo que melhor descreva o relacionamento entre uma ou mais variáveis preditoras e uma variável de resposta .
Neste artigo, compartilhamos os 7 modelos de regressão mais comumente usados na vida real e quando usar cada tipo de regressão.
1. Regressão linear
A regressão linear é usada para ajustar um modelo de regressão que descreve a relação entre uma ou mais variáveis preditoras e uma variável de resposta numérica.
Use quando:
- A relação entre a(s) variável(ões) preditora(s) e a variável resposta é razoavelmente linear.
- A variável de resposta é uma variável numérica contínua.
Exemplo: Uma empresa de varejo pode ajustar um modelo de regressão linear usando gastos com publicidade para prever as vendas totais.
Dado que a relação entre estas duas variáveis é provavelmente linear (mais dinheiro gasto em publicidade geralmente resulta em mais vendas) e a variável de resposta (vendas totais) é uma variável numérica contínua, faz sentido ajustar um modelo de regressão linear.
Recurso: Uma Introdução à Regressão Linear Múltipla
2. Regressão logística
A regressão logística é usada para ajustar um modelo de regressão que descreve o relacionamento entre uma ou mais variáveis preditoras e uma variável de resposta binária.
Use quando:
- A variável de resposta é binária: só pode assumir dois valores.
Exemplo: Pesquisadores médicos podem ajustar um modelo de regressão logística usando exercícios e hábitos de fumar para prever a probabilidade de um indivíduo ter um ataque cardíaco.
Como a variável resposta (ataque cardíaco) é binária – um indivíduo sofre um ataque cardíaco ou não – é apropriado ajustar um modelo de regressão logística.
Recurso: Uma Introdução à Regressão Logística
3. Regressão polinomial
A regressão polinomial é usada para ajustar um modelo de regressão que descreve a relação entre uma ou mais variáveis preditoras e uma variável de resposta numérica.
Use quando:
- A relação entre a(s) variável(ões) preditora(s) e a variável de resposta não é linear.
- A variável de resposta é uma variável numérica contínua.
Exemplo: Os psicólogos podem ajustar uma regressão polinomial usando “horas trabalhadas” para prever a “felicidade geral” dos funcionários de um determinado setor.
A relação entre essas duas variáveis é provavelmente não linear. Ou seja, à medida que o número de horas aumenta, um indivíduo pode reportar maior felicidade, mas para além de um certo número de horas trabalhadas, é provável que a felicidade global diminua. Como esta relação entre a variável preditora e a variável resposta é não linear, faz sentido ajustar um modelo de regressão polinomial.
Recurso: Uma Introdução à Regressão Polinomial
4. Regressão do cume
A regressão Ridge é usada para ajustar um modelo de regressão que descreve a relação entre uma ou mais variáveis preditoras e uma variável de resposta numérica.
Use quando:
- As variáveis preditoras são altamente correlacionadas e a multicolinearidade torna-se um problema.
- A variável de resposta é uma variável numérica contínua.
Exemplo: um cientista de dados de basquete pode ajustar um modelo de regressão de cume usando variáveis preditoras como pontos, assistências e rebotes para prever os salários dos jogadores.
É provável que as variáveis preditoras estejam altamente correlacionadas, uma vez que os melhores jogadores tendem a ter mais pontos, assistências e rebotes. Portanto, é provável que a multicolinearidade seja um problema, portanto podemos minimizar esse problema usando a regressão de crista.
Recurso: Uma introdução à regressão de Ridge
5. Regressão do Laço
A regressão Lasso é muito semelhante à regressão Ridge e é usada para ajustar um modelo de regressão que descreve a relação entre uma ou mais variáveis preditoras e uma variável de resposta numérica.
Use quando:
- As variáveis preditoras são altamente correlacionadas e a multicolinearidade torna-se um problema.
- A variável de resposta é uma variável numérica contínua.
Exemplo: Um economista pode ajustar um modelo de regressão laço utilizando variáveis preditoras como o total de anos de escolaridade, horas trabalhadas e custo de vida para prever o rendimento familiar.
As variáveis preditoras estão provavelmente altamente correlacionadas, uma vez que indivíduos mais instruídos também tendem a viver em cidades com custos de vida mais elevados e a trabalhar mais horas. Portanto, é provável que a multicolinearidade seja um problema, portanto podemos minimizar esse problema usando a regressão laço.
Observe que a regressão Lasso e a regressão Ridge são bastante semelhantes. Quando a multicolinearidade é um problema em um conjunto de dados, é recomendado ajustar um modelo de regressão Lasso e Ridge para ver qual modelo funciona melhor.
Recurso: Uma Introdução à Regressão Lasso
6. Regressão de Poisson
A regressão de Poisson é usada para ajustar um modelo de regressão que descreve a relação entre uma ou mais variáveis preditoras e uma variável de resposta.
Use quando:
- A variável de resposta são dados de “contagem” – por exemplo, o número de dias ensolarados por semana, o número de acidentes rodoviários por ano, o número de chamadas feitas por dia, etc.
Exemplo: Uma universidade pode usar a regressão de Poisson para examinar o número de alunos que se formaram em um programa universitário específico com base em seu GPA quando ingressaram no programa e em seu gênero.
Neste caso, como a variável resposta são dados de contagem (podemos “contar” o número de alunos concluintes – 200, 250, 300, 413, etc.), é apropriado utilizar a regressão de Poisson.
Recurso: Uma introdução à regressão de Poisson
7. Regressão quantílica
A regressão quantílica é usada para ajustar um modelo de regressão que descreve a relação entre uma ou mais variáveis preditoras e uma variável de resposta.
Use quando:
- Gostaríamos de estimar um quantil ou percentil específico da variável de resposta – por exemplo, o percentil 90, o percentil 95, etc.
Exemplo: um professor pode usar a regressão quantílica para prever o percentil 90 esperado das notas dos exames com base no número de horas estudadas:
Nesse caso, como o professor deseja prever um percentil específico da variável resposta (notas dos exames), é adequado utilizar a regressão quantílica.
Recurso: Uma Introdução à Regressão Quantílica
Recursos adicionais
4 exemplos de uso de regressão linear na vida real
4 exemplos de uso de regressão logística na vida real
ANOVA vs regressão: qual a diferença?
O guia completo: como relatar resultados de regressão