Uma introdução às árvores de classificação e regressão


Quando a relação entre um conjunto de variáveis preditoras e uma variável de resposta é linear, métodos como a regressão linear múltipla podem produzir modelos preditivos precisos.

No entanto, quando a relação entre um conjunto de preditores e uma resposta é altamente não linear e complexa, então os métodos não lineares podem ter melhor desempenho.

Um exemplo de método não linear são as árvores de classificação e regressão , geralmente abreviadas como CART .

Como o nome sugere, os modelos CART usam um conjunto de variáveis preditoras para criar árvores de decisão que preveem o valor de uma variável de resposta.

Por exemplo, suponha que temos um conjunto de dados contendo as variáveis preditoras Anos Jogados e Média de Home Runs e a variável de resposta Salário Anual para centenas de jogadores profissionais de beisebol.

Esta é a aparência de uma árvore de regressão para este conjunto de dados:

Exemplo de árvore de regressão

A maneira de interpretar a árvore é a seguinte:

  • Jogadores que jogaram menos de 4,5 anos têm um salário projetado de US$ 225,8 mil.
  • Jogadores que jogaram mais de 4,5 anos ou mais e menos de 16,5 home runs em média têm um salário projetado de US$ 577,6 mil.
  • Jogadores com 4,5 anos ou mais de experiência de jogo e uma média de 16,5 home runs ou mais têm um salário esperado de $ 975,6 mil.

Os resultados deste modelo deveriam fazer sentido intuitivamente: jogadores com mais anos de experiência e mais home runs médios tendem a ganhar salários mais elevados.

Podemos então usar este modelo para prever o salário de um novo jogador.

Por exemplo, digamos que um determinado jogador jogou 8 anos e tem uma média de 10 home runs por ano. De acordo com nosso modelo, preveríamos que esse jogador teria um salário anual de US$ 577,6 mil.

Modelo BASQUETEBOL

Algumas observações sobre a árvore:

  • A primeira variável preditiva localizada no topo da árvore é a mais importante, ou seja, aquela que mais influencia na previsão do valor da variável resposta. Neste caso, os anos jogados preveem melhor o salário do que a média dos circuitos .
  • As regiões na parte inferior da árvore são chamadas de nós folha . Esta árvore específica possui três nós terminais.

Etapas para criar modelos CART

Podemos usar as seguintes etapas para criar um modelo CART para um determinado conjunto de dados:

Etapa 1: use a divisão binária recursiva para desenvolver uma grande árvore nos dados de treinamento.

Primeiro, usamos um algoritmo ganancioso chamado divisão binária recursiva para desenvolver uma árvore de regressão usando o seguinte método:

  • Considere todas as variáveis preditoras X 1 , X 2 , … , erro padrão residual) as mais baixas. .
    • Para árvores de classificação, escolhemos o preditor e o ponto de corte de forma que a árvore resultante tenha a menor taxa de erro de classificação.
  • Repita esse processo, parando apenas quando cada nó terminal tiver menos que um determinado número mínimo de observações.

Este algoritmo é ganancioso porque em cada etapa do processo de construção da árvore ele determina a melhor divisão a ser feita com base apenas naquela etapa, em vez de olhar para o futuro e escolher uma divisão que levará a uma árvore global melhor em um estágio futuro.

Passo 2: Aplicar poda de complexidade de custo à árvore grande para obter uma sequência das melhores árvores, com base em α.

Depois de termos crescido a árvore grande, precisamos podá- la usando um método conhecido como poda complexa, que funciona da seguinte forma:

  • Para cada árvore possível com T nós terminais, encontre a árvore que minimiza RSS + α|T|.
  • Observe que quando aumentamos o valor de α, as árvores com mais nós terminais são penalizadas. Isso garante que a árvore não se torne muito complexa.

Este processo resulta em uma sequência das melhores árvores para cada valor de α.

Etapa 3: Use a validação cruzada k-fold para escolher α.

Uma vez encontrada a melhor árvore para cada valor de α, podemos aplicar a validação cruzada k-fold para escolher o valor de α que minimize o erro de teste.

Passo 4: Escolha o modelo final.

Por fim, escolhemos o modelo final como aquele que corresponde ao valor escolhido de α.

Vantagens e desvantagens dos modelos CART

Os modelos CART oferecem as seguintes vantagens :

No entanto, os modelos CART apresentam as seguintes desvantagens:

  • Eles tendem a não ter tanta precisão preditiva quanto outros algoritmos de aprendizado de máquina não linear. No entanto, ao agrupar muitas árvores de decisão com métodos como ensacamento, reforço e florestas aleatórias, sua precisão preditiva pode ser melhorada.

Relacionado: Como ajustar árvores de classificação e regressão em R

Add a Comment

O seu endereço de email não será publicado. Campos obrigatórios marcados com *