Regressão logística vs regressão linear: as principais diferenças
Dois dos modelos de regressão mais utilizados são a regressão linear e a regressão logística .
Ambos os tipos de modelos de regressão são usados para quantificar a relação entre uma ou mais variáveis preditoras e uma variável de resposta , mas existem algumas diferenças importantes entre os dois modelos:
Aqui está um resumo das diferenças:
Diferença nº 1: tipo de variável de resposta
Um modelo de regressão linear é usado quando a variável de resposta assume um valor contínuo tal que:
- Preço
- Altura
- Idade
- Distância
Por outro lado, um modelo de regressão logística é usado quando a variável de resposta assume um valor categórico como:
- sim ou não
- Macho ou fêmea
- Ganhar ou não vencer
Diferença #2: equação usada
A regressão linear usa a seguinte equação para resumir a relação entre a(s) variável(ões) preditora(s) e a variável de resposta:
Y = β 0 + β 1 X 1 + β 2 X 2 +… + β p
Ouro:
- Y: a variável de resposta
- X j : a j- ésima variável preditiva
- β j : O efeito médio em Y de um aumento de uma unidade em X j , mantendo todos os outros preditores fixos
Por outro lado, a regressão logística usa a seguinte equação:
p(X) = e β 0 + β 1 X 1 + β 2 X 2 + … + β p
Esta equação é usada para prever a probabilidade de uma observação individual cair em uma determinada categoria.
Diferença #3: Método usado para ajustar a equação
A regressão linear usa um método conhecido como mínimos quadrados ordinários para encontrar a equação de regressão mais adequada.
Por outro lado, a regressão logística usa um método conhecido como estimativa de máxima verossimilhança para encontrar a equação de regressão mais adequada.
Diferença nº 4: resultado a ser previsto
A regressão linear prevê um valor contínuo como saída. Por exemplo:
- Preço ($ 150, $ 199, $ 400, etc.)
- Altura (14 polegadas, 2 pés, 94,32 centímetros, etc.)
- Idade (2 meses, 6 anos, 41,5 anos, etc.)
- Distância (1,23 milhas, 4,5 quilômetros, etc.)
Por outro lado, a regressão logística prevê probabilidades como resultado. Por exemplo:
- 40,3% de chance de ser aceito em uma universidade.
- 93,2% de chance de ganhar um jogo.
- 34,2% de chance de que uma lei seja aprovada.
Quando usar regressão logística ou linear
Os problemas práticos a seguir podem ajudá-lo a entender melhor quando usar regressão logística ou regressão linear.
Problema nº 1: Renda Anual
Suponha que um economista queira usar variáveis preditoras (1) horas semanais trabalhadas e (2) anos de escolaridade para prever a renda anual dos indivíduos.
Nesse cenário, ele usaria a regressão linear porque a variável resposta (renda anual) é contínua.
Problema nº 2: aceitação na faculdade
Suponha que um oficial de admissão em uma faculdade queira usar as variáveis preditoras (1) GPA e (2) pontuação ACT para prever a probabilidade de um aluno ser aceito em uma determinada universidade.
Nesse cenário, ela usaria a regressão logística porque a variável resposta é categórica e só pode assumir dois valores: aceito ou não aceito.
Problema nº 3: preços imobiliários
Suponha que um corretor de imóveis queira usar as variáveis preditoras (1) metragem quadrada, (2) número de quartos e (3) número de banheiros para prever os preços de venda de casas.
Nesse cenário, ela usaria a regressão linear porque a variável resposta (preço) é contínua.
Problema nº 4: detecção de spam
Suponha que um programador de computador queira usar as variáveis preditoras (1) contagem de palavras e (2) país de origem para prever a probabilidade de um determinado e-mail ser spam.
Nesse cenário, seria utilizada regressão logística porque a variável resposta é categórica e só pode assumir dois valores: spam ou não spam.
Recursos adicionais
Os tutoriais a seguir oferecem mais detalhes sobre regressão linear:
- Introdução à regressão linear simples
- Introdução à regressão linear múltipla
- 4 exemplos de uso de regressão linear na vida real
Os tutoriais a seguir oferecem mais detalhes sobre regressão logística: