O que é seleção faseada? (explicação e exemplos)


No campo do aprendizado de máquina, nosso objetivo é criar um modelo que possa usar efetivamente um conjunto de variáveis preditoras para prever o valor de uma variável de resposta .

Dado um conjunto de p variáveis preditoras totais, existem muitos modelos que poderíamos construir. Um método que podemos usar para selecionar o melhor modelo é conhecido como melhor seleção de subconjunto , que tenta escolher o melhor modelo dentre todos os modelos possíveis que poderiam ser construídos com o conjunto de preditores.

Infelizmente, este método apresenta duas desvantagens:

  • Isso pode ser computacionalmente intenso. Para um conjunto de p variáveis preditoras, existem 2 p modelos possíveis. Por exemplo, com 10 variáveis preditoras, existem 2 10 = 1.000 modelos possíveis a serem considerados.
  • Por considerar um número muito grande de modelos, ele poderia potencialmente encontrar um modelo com bom desempenho em dados de treinamento, mas não em dados futuros. Isso pode levar a um overfitting .

Uma alternativa para selecionar o melhor subconjunto é conhecida como seleção stepwise , que compara um conjunto muito menor de modelos.

Existem dois tipos de métodos de seleção de etapas: seleção de etapas para frente e seleção de etapas para trás.

Seleção passo a passo

A seleção passo a passo funciona da seguinte maneira:

1. Seja M 0 o modelo nulo, que não contém nenhuma variável preditiva.

2. Para k = 0, 2,… p-1:

  • Ajuste todos os modelos pk que aumentam os preditores em M k com uma variável preditora adicional.
  • Escolha o melhor entre esses modelos pk e chame-o de M k+1 . Defina “melhor” como o modelo com o maior R 2 ou, equivalentemente, o menor RSS.

3. Selecione um único melhor modelo de M 0 … M p usando erro de predição de validação cruzada, Cp, BIC, AIC ou R 2 ajustado.

Seleção retroativa passo a passo

A seleção de etapas para trás funciona da seguinte maneira:

1. Seja M p o modelo completo, que contém todas as p variáveis preditivas.

2. Para k = p, p-1,… 1:

  • Ajuste todos os k modelos que contêm todos, exceto um preditor em Mk , para um total de k-1 variáveis preditoras.
  • Escolha o melhor entre esses k modelos e chame-o de M k-1 . Defina “melhor” como o modelo com o maior R 2 ou, equivalentemente, o menor RSS.

3. Selecione um único melhor modelo de M 0 … M p usando erro de predição de validação cruzada, Cp, BIC, AIC ou R 2 ajustado.

Critérios para escolher o “melhor” modelo

A etapa final da seleção gradual para frente e para trás é escolher o modelo com o menor erro de predição, o menor Cp, o menor BIC, o maior AIC baixo ou o maior R 2 ajustado.

Aqui estão as fórmulas usadas para calcular cada uma dessas métricas:

Cp: (RSS+2dσ̂) /n

AIC: (RSS+2dσ̂ 2 ) / (nσ̂ 2 )

BIC: (RSS+log(n)dσ̂ 2 ) / n

R 2 ajustado: 1 – ( (RSS / (nd-1)) / (TSS / (n-1)) )

Ouro:

  • d: O número de preditores
  • n: Total de observações
  • σ̂: Estimativa da variância do erro associada a cada medida de resposta em um modelo de regressão
  • RSS: Soma residual dos quadrados do modelo de regressão
  • TSS: Soma total dos quadrados do modelo de regressão

Vantagens e desvantagens da seleção faseada

A seleção faseada oferece as seguintes vantagens :

Este método é mais eficiente computacionalmente do que selecionar o melhor subconjunto. Dadas p variáveis preditoras, a seleção do melhor subconjunto deve corresponder a 2 p modelos.

Por outro lado, a seleção passo a passo deve caber apenas nos modelos 1+p(p+ 1)/2. Para p = 10 variáveis preditoras, a seleção do melhor subconjunto deve caber em 1.000 modelos, enquanto a seleção passo a passo deve caber apenas em 56 modelos.

No entanto, a seleção faseada tem a seguinte desvantagem potencial:

Não é garantido encontrar o melhor modelo possível entre todos os modelos 2p potenciais.

Por exemplo, suponha que temos um conjunto de dados com p = 3 preditores. O melhor modelo possível de um preditor pode conter x 1 e o melhor modelo possível de dois preditores pode conter x 1 e x 2 .

Nesse caso, a seleção gradual progressiva não conseguirá selecionar o melhor modelo possível de dois preditores porque M 1 conterá x 1 , então M 2 também deve conter x 1 , bem como outra variável.

Add a Comment

O seu endereço de email não será publicado. Campos obrigatórios marcados com *