Regressão logística vs regressão linear: as principais diferenças


Dois dos modelos de regressão mais utilizados são a regressão linear e a regressão logística .

Ambos os tipos de modelos de regressão são usados para quantificar a relação entre uma ou mais variáveis preditoras e uma variável de resposta , mas existem algumas diferenças importantes entre os dois modelos:

regressão logística vs regressão linear

Aqui está um resumo das diferenças:

Diferença nº 1: tipo de variável de resposta

Um modelo de regressão linear é usado quando a variável de resposta assume um valor contínuo tal que:

  • Preço
  • Altura
  • Idade
  • Distância

Por outro lado, um modelo de regressão logística é usado quando a variável de resposta assume um valor categórico como:

  • sim ou não
  • Macho ou fêmea
  • Ganhar ou não vencer

Diferença #2: equação usada

A regressão linear usa a seguinte equação para resumir a relação entre a(s) variável(ões) preditora(s) e a variável de resposta:

Y = β 0 + β 1 X 1 + β 2 X 2 +… + β p

Ouro:

  • Y: a variável de resposta
  • X j : a j- ésima variável preditiva
  • β j : O efeito médio em Y de um aumento de uma unidade em X j , mantendo todos os outros preditores fixos

Por outro lado, a regressão logística usa a seguinte equação:

p(X) = e β 0 + β 1 X 1 + β 2 X 2 + + β p

Esta equação é usada para prever a probabilidade de uma observação individual cair em uma determinada categoria.

Diferença #3: Método usado para ajustar a equação

A regressão linear usa um método conhecido como mínimos quadrados ordinários para encontrar a equação de regressão mais adequada.

Por outro lado, a regressão logística usa um método conhecido como estimativa de máxima verossimilhança para encontrar a equação de regressão mais adequada.

Diferença nº 4: resultado a ser previsto

A regressão linear prevê um valor contínuo como saída. Por exemplo:

  • Preço ($ 150, $ 199, $ 400, etc.)
  • Altura (14 polegadas, 2 pés, 94,32 centímetros, etc.)
  • Idade (2 meses, 6 anos, 41,5 anos, etc.)
  • Distância (1,23 milhas, 4,5 quilômetros, etc.)

Por outro lado, a regressão logística prevê probabilidades como resultado. Por exemplo:

  • 40,3% de chance de ser aceito em uma universidade.
  • 93,2% de chance de ganhar um jogo.
  • 34,2% de chance de que uma lei seja aprovada.

Quando usar regressão logística ou linear

Os problemas práticos a seguir podem ajudá-lo a entender melhor quando usar regressão logística ou regressão linear.

Problema nº 1: Renda Anual

Suponha que um economista queira usar variáveis preditoras (1) horas semanais trabalhadas e (2) anos de escolaridade para prever a renda anual dos indivíduos.

Nesse cenário, ele usaria a regressão linear porque a variável resposta (renda anual) é contínua.

Problema nº 2: aceitação na faculdade

Suponha que um oficial de admissão em uma faculdade queira usar as variáveis preditoras (1) GPA e (2) pontuação ACT para prever a probabilidade de um aluno ser aceito em uma determinada universidade.

Nesse cenário, ela usaria a regressão logística porque a variável resposta é categórica e só pode assumir dois valores: aceito ou não aceito.

Problema nº 3: preços imobiliários

Suponha que um corretor de imóveis queira usar as variáveis preditoras (1) metragem quadrada, (2) número de quartos e (3) número de banheiros para prever os preços de venda de casas.

Nesse cenário, ela usaria a regressão linear porque a variável resposta (preço) é contínua.

Problema nº 4: detecção de spam

Suponha que um programador de computador queira usar as variáveis preditoras (1) contagem de palavras e (2) país de origem para prever a probabilidade de um determinado e-mail ser spam.

Nesse cenário, seria utilizada regressão logística porque a variável resposta é categórica e só pode assumir dois valores: spam ou não spam.

Recursos adicionais

Os tutoriais a seguir oferecem mais detalhes sobre regressão linear:

Os tutoriais a seguir oferecem mais detalhes sobre regressão logística:

Add a Comment

O seu endereço de email não será publicado. Campos obrigatórios marcados com *