O que é seleção faseada? (explicação e exemplos)
No campo do aprendizado de máquina, nosso objetivo é criar um modelo que possa usar efetivamente um conjunto de variáveis preditoras para prever o valor de uma variável de resposta .
Dado um conjunto de p variáveis preditoras totais, existem muitos modelos que poderíamos construir. Um método que podemos usar para selecionar o melhor modelo é conhecido como melhor seleção de subconjunto , que tenta escolher o melhor modelo dentre todos os modelos possíveis que poderiam ser construídos com o conjunto de preditores.
Infelizmente, este método apresenta duas desvantagens:
- Isso pode ser computacionalmente intenso. Para um conjunto de p variáveis preditoras, existem 2 p modelos possíveis. Por exemplo, com 10 variáveis preditoras, existem 2 10 = 1.000 modelos possíveis a serem considerados.
- Por considerar um número muito grande de modelos, ele poderia potencialmente encontrar um modelo com bom desempenho em dados de treinamento, mas não em dados futuros. Isso pode levar a um overfitting .
Uma alternativa para selecionar o melhor subconjunto é conhecida como seleção stepwise , que compara um conjunto muito menor de modelos.
Existem dois tipos de métodos de seleção de etapas: seleção de etapas para frente e seleção de etapas para trás.
Seleção passo a passo
A seleção passo a passo funciona da seguinte maneira:
1. Seja M 0 o modelo nulo, que não contém nenhuma variável preditiva.
2. Para k = 0, 2,… p-1:
- Ajuste todos os modelos pk que aumentam os preditores em M k com uma variável preditora adicional.
- Escolha o melhor entre esses modelos pk e chame-o de M k+1 . Defina “melhor” como o modelo com o maior R 2 ou, equivalentemente, o menor RSS.
3. Selecione um único melhor modelo de M 0 … M p usando erro de predição de validação cruzada, Cp, BIC, AIC ou R 2 ajustado.
Seleção retroativa passo a passo
A seleção de etapas para trás funciona da seguinte maneira:
1. Seja M p o modelo completo, que contém todas as p variáveis preditivas.
2. Para k = p, p-1,… 1:
- Ajuste todos os k modelos que contêm todos, exceto um preditor em Mk , para um total de k-1 variáveis preditoras.
- Escolha o melhor entre esses k modelos e chame-o de M k-1 . Defina “melhor” como o modelo com o maior R 2 ou, equivalentemente, o menor RSS.
3. Selecione um único melhor modelo de M 0 … M p usando erro de predição de validação cruzada, Cp, BIC, AIC ou R 2 ajustado.
Critérios para escolher o “melhor” modelo
A etapa final da seleção gradual para frente e para trás é escolher o modelo com o menor erro de predição, o menor Cp, o menor BIC, o maior AIC baixo ou o maior R 2 ajustado.
Aqui estão as fórmulas usadas para calcular cada uma dessas métricas:
Cp: (RSS+2dσ̂) /n
AIC: (RSS+2dσ̂ 2 ) / (nσ̂ 2 )
BIC: (RSS+log(n)dσ̂ 2 ) / n
R 2 ajustado: 1 – ( (RSS / (nd-1)) / (TSS / (n-1)) )
Ouro:
- d: O número de preditores
- n: Total de observações
- σ̂: Estimativa da variância do erro associada a cada medida de resposta em um modelo de regressão
- RSS: Soma residual dos quadrados do modelo de regressão
- TSS: Soma total dos quadrados do modelo de regressão
Vantagens e desvantagens da seleção faseada
A seleção faseada oferece as seguintes vantagens :
Este método é mais eficiente computacionalmente do que selecionar o melhor subconjunto. Dadas p variáveis preditoras, a seleção do melhor subconjunto deve corresponder a 2 p modelos.
Por outro lado, a seleção passo a passo deve caber apenas nos modelos 1+p(p+ 1)/2. Para p = 10 variáveis preditoras, a seleção do melhor subconjunto deve caber em 1.000 modelos, enquanto a seleção passo a passo deve caber apenas em 56 modelos.
No entanto, a seleção faseada tem a seguinte desvantagem potencial:
Não é garantido encontrar o melhor modelo possível entre todos os modelos 2p potenciais.
Por exemplo, suponha que temos um conjunto de dados com p = 3 preditores. O melhor modelo possível de um preditor pode conter x 1 e o melhor modelo possível de dois preditores pode conter x 1 e x 2 .
Nesse caso, a seleção gradual progressiva não conseguirá selecionar o melhor modelo possível de dois preditores porque M 1 conterá x 1 , então M 2 também deve conter x 1 , bem como outra variável.