O que é seleção faseada? (explicação e exemplos)

By Dr. benjamim anderson Julho 27, 2023 Guia 0 Comments

No campo do aprendizado de máquina, nosso objetivo é criar um modelo que possa usar efetivamente um conjunto de variáveis preditoras para prever o valor de uma variável de resposta .

Dado um conjunto de p variáveis preditoras totais, existem muitos modelos que poderíamos construir. Um método que podemos usar para selecionar o melhor modelo é conhecido como melhor seleção de subconjunto , que tenta escolher o melhor modelo dentre todos os modelos possíveis que poderiam ser construídos com o conjunto de preditores.

Infelizmente, este método apresenta duas desvantagens:

Isso pode ser computacionalmente intenso. Para um conjunto de p variáveis preditoras, existem 2 ^p modelos possíveis. Por exemplo, com 10 variáveis preditoras, existem 2 ¹⁰ = 1.000 modelos possíveis a serem considerados.
Por considerar um número muito grande de modelos, ele poderia potencialmente encontrar um modelo com bom desempenho em dados de treinamento, mas não em dados futuros. Isso pode levar a um overfitting .

Uma alternativa para selecionar o melhor subconjunto é conhecida como seleção stepwise , que compara um conjunto muito menor de modelos.

Existem dois tipos de métodos de seleção de etapas: seleção de etapas para frente e seleção de etapas para trás.

Seleção passo a passo

A seleção passo a passo funciona da seguinte maneira:

1. Seja M ₀ o modelo nulo, que não contém nenhuma variável preditiva.

2. Para k = 0, 2,… p-1:

Ajuste todos os modelos pk que aumentam os preditores em M _k com uma variável preditora adicional.
Escolha o melhor entre esses modelos pk e chame-o de M _k+1 . Defina “melhor” como o modelo com o maior R ² ou, equivalentemente, o menor RSS.

3. Selecione um único melhor modelo de M ₀ … M _p usando erro de predição de validação cruzada, Cp, BIC, AIC ou R ² ajustado.

Seleção retroativa passo a passo

A seleção de etapas para trás funciona da seguinte maneira:

1. Seja M _p o modelo completo, que contém todas as p variáveis preditivas.

2. Para k = p, p-1,… 1:

Ajuste todos os k modelos que contêm todos, exceto um preditor em _Mk , para um total de k-1 variáveis preditoras.
Escolha o melhor entre esses k modelos e chame-o de M _k-1 . Defina “melhor” como o modelo com o maior R ² ou, equivalentemente, o menor RSS.

3. Selecione um único melhor modelo de M ₀ … M _p usando erro de predição de validação cruzada, Cp, BIC, AIC ou R ² ajustado.

Critérios para escolher o “melhor” modelo

A etapa final da seleção gradual para frente e para trás é escolher o modelo com o menor erro de predição, o menor Cp, o menor BIC, o maior AIC baixo ou o maior R ² ajustado.

Aqui estão as fórmulas usadas para calcular cada uma dessas métricas:

Cp: (RSS+2dσ̂) /n

AIC: (RSS+2dσ̂ ² ) / (nσ̂ ² )

BIC: (RSS+log(n)dσ̂ ² ) / n

R ² ajustado: 1 – ( (RSS / (nd-1)) / (TSS / (n-1)) )

Ouro:

d: O número de preditores
n: Total de observações
σ̂: Estimativa da variância do erro associada a cada medida de resposta em um modelo de regressão
RSS: Soma residual dos quadrados do modelo de regressão
TSS: Soma total dos quadrados do modelo de regressão

Vantagens e desvantagens da seleção faseada

A seleção faseada oferece as seguintes vantagens :

Este método é mais eficiente computacionalmente do que selecionar o melhor subconjunto. Dadas p variáveis preditoras, a seleção do melhor subconjunto deve corresponder a 2 ^p modelos.

Por outro lado, a seleção passo a passo deve caber apenas nos modelos 1+p(p+ 1)/2. Para p = 10 variáveis preditoras, a seleção do melhor subconjunto deve caber em 1.000 modelos, enquanto a seleção passo a passo deve caber apenas em 56 modelos.

No entanto, a seleção faseada tem a seguinte desvantagem potencial:

Não é garantido encontrar o melhor modelo possível entre todos os modelos ^2p potenciais.

Por exemplo, suponha que temos um conjunto de dados com p = 3 preditores. O melhor modelo possível de um preditor pode conter x ₁ e o melhor modelo possível de dois preditores pode conter x ₁ e x ₂ .

Nesse caso, a seleção gradual progressiva não conseguirá selecionar o melhor modelo possível de dois preditores porque M ₁ conterá x ₁ , então M ₂ também deve conter x ₁ , bem como outra variável.

About Author

Dr. benjamim anderson

Olá, sou Benjamin, um professor aposentado de estatística que se tornou professor dedicado na Statorials. Com vasta experiência e conhecimento na área de estatística, estou empenhado em compartilhar meu conhecimento para capacitar os alunos por meio de Statorials. Saber mais