Regressão ou classificação: qual a diferença?


Os algoritmos de aprendizado de máquina podem ser divididos em dois tipos distintos: algoritmos de aprendizado supervisionado e não supervisionado .

Algoritmos de aprendizado de máquina de regressão ou classificação

Algoritmos de aprendizagem supervisionada podem ser classificados em dois tipos:

1. Regressão: A variável resposta é contínua.

Por exemplo, a variável de resposta poderia ser:

  • Peso
  • Altura
  • Preço
  • Tempo
  • Unidades totais

Em cada caso, um modelo de regressão procura prever uma quantidade contínua.

Exemplo de regressão:

Digamos que temos um conjunto de dados contendo três variáveis para 100 casas diferentes: metragem quadrada, número de banheiros e preço de venda.

Poderíamos ajustar um modelo de regressão que utilizasse a metragem quadrada e o número de banheiros como variáveis explicativas e o preço de venda como variável de resposta.

Poderíamos então utilizar este modelo para prever o preço de venda de uma casa, com base na sua metragem quadrada e no número de casas de banho.

Este é um exemplo de modelo de regressão porque a variável resposta (preço de venda) é contínua.

A maneira mais comum de medir a precisão de um modelo de regressão é calcular a raiz do erro quadrático médio (RMSE), uma métrica que nos diz a que distância nossos valores previstos estão dos valores observados em um modelo, em média. É calculado da seguinte forma:

RMSE = √ Σ(P i – O i ) 2 / n

Ouro:

  • Σ é um símbolo sofisticado que significa “soma”
  • Pi é o valor previsto para a i-ésima observação
  • O i é o valor observado para a i-ésima observação
  • n é o tamanho da amostra

Quanto menor o RMSE, melhor o modelo de regressão é capaz de ajustar os dados.

2. Classificação: A variável resposta é categórica.

Por exemplo, a variável de resposta poderia assumir os seguintes valores:

  • Macho ou fêmea
  • Ter sucesso ou falhar
  • Baixo, médio ou alto

Em cada caso, um modelo de classificação procura prever um rótulo de classe.

Exemplo de classificação:

Digamos que temos um conjunto de dados contendo três variáveis para 100 jogadores de basquete universitário diferentes: média de pontos por jogo, nível de divisão e se eles foram ou não convocados para a NBA.

Poderíamos adaptar um modelo de classificação que utilizasse a média de pontos por jogo e por nível de divisão como variáveis explicativas e “elaborado” como variável resposta.

Poderíamos então usar esse modelo para prever se um determinado jogador será ou não convocado para a NBA com base na média de pontos por jogo e no nível da divisão.

Este é um exemplo de modelo de classificação porque a variável resposta (“escrita”) é categórica. Ou seja, só pode assumir valores em duas categorias diferentes: “Escrito” ou “Não Elaborado”.

A forma mais comum de medir a precisão de um modelo de classificação é simplesmente calcular a porcentagem de classificações corretas feitas pelo modelo:

Precisão = classificações de correção / número total de tentativas de classificação * 100%

Por exemplo, se um modelo identifica corretamente se um jogador será ou não convocado para a NBA 88 vezes em 100 vezes possíveis, então a precisão do modelo é:

Precisão = (88/100) * 100% = 88%

Quanto maior a precisão, melhor o modelo de classificação é capaz de prever os resultados.

Semelhanças entre regressão e classificação

Os algoritmos de regressão e classificação são semelhantes das seguintes maneiras:

  • Ambos são algoritmos de aprendizagem supervisionada, ou seja, ambos envolvem uma variável de resposta.
  • Ambos usam uma ou mais variáveis explicativas para criar modelos para prever uma resposta.
  • Ambos podem ser usados para entender como as mudanças nos valores das variáveis explicativas afetam os valores de uma variável resposta.

Diferenças entre regressão e classificação

Os algoritmos de regressão e classificação diferem das seguintes maneiras:

  • Os algoritmos de regressão procuram prever uma quantidade contínua e os algoritmos de classificação procuram prever um rótulo de classe.
  • A forma como medimos a precisão dos modelos de regressão e classificação difere.

Convertendo regressão em classificação

Deve-se notar que um problema de regressão pode ser convertido em um problema de classificação simplesmente discretizando a variável resposta em compartimentos.

Por exemplo, digamos que temos um conjunto de dados que contém três variáveis: metragem quadrada, número de banheiros e preço de venda.

Poderíamos construir um modelo de regressão usando a metragem quadrada e o número de banheiros para prever os preços de venda.

No entanto, poderíamos discretizar o preço de venda em três classes diferentes:

  • US$ 80.000 – US$ 160.000: “Preço de venda baixo”
  • US$ 161.000 – US$ 240.000: “Preço médio de venda”
  • US$ 241.000 – US$ 320.000: “Alto preço de venda”

Poderíamos então usar a metragem quadrada e o número de banheiros como variáveis explicativas para prever em qual classe (baixa, média ou alta) o preço de venda de uma determinada casa se enquadrará.

Este seria um exemplo de modelo de classificação, pois estamos tentando colocar cada casa em uma classe.

Resumo

A tabela a seguir resume as semelhanças e diferenças entre algoritmos de regressão e classificação:

Diferenças entre regressão e classificação

Add a Comment

O seu endereço de email não será publicado. Campos obrigatórios marcados com *