O que é um modelo parcimonioso?
Um modelo parcimonioso é aquele que atinge um nível de ajuste desejado usando o menor número possível de variáveis explicativas .
O raciocínio por trás deste tipo de modelo decorre da ideia da navalha de Occam (às vezes chamada de “princípio da parcimônia”) que diz que a explicação mais simples é provavelmente a correta.
Aplicado às estatísticas, um modelo que possui poucos parâmetros, mas atinge um nível de ajuste satisfatório, deve ser preferido a um modelo que possui muitos parâmetros e atinge apenas um nível de ajuste ligeiramente superior.
Há duas razões para isso:
1. Modelos parcimoniosos são mais fáceis de interpretar e compreender. Modelos com menos parâmetros são mais fáceis de entender e explicar.
2. Modelos parcimoniosos tendem a ter maior capacidade preditiva. Modelos com menos parâmetros tendem a ter melhor desempenho quando aplicados a novos dados.
Considere os dois exemplos a seguir para ilustrar essas idéias.
Exemplo 1: Modelos parcimoniosos = Fácil interpretação
Suponha que queiramos construir um modelo usando um conjunto de variáveis explicativas relacionadas ao setor imobiliário para prever os preços dos imóveis. Considere os dois modelos a seguir com seu R-quadrado ajustado:
Modelo 1:
- Equação: Preço da casa = 8.830 + 81*(pés quadrados)
- R2 ajustado: 0,7734
Modelo 2:
- Equação: Preço da casa = 8.921 + 77*(pés quadrados) + 7*(pés quadrados) 2 – 9*(idade) + 600*(quartos) + 38*(banheiros)
- R2 ajustado: 0,7823
O primeiro modelo possui apenas uma variável explicativa e um R2 ajustado de 0,7734, enquanto o segundo modelo possui cinco variáveis explicativas com um R2 ajustado ligeiramente superior.
Com base no princípio da parcimónia, preferiríamos utilizar o primeiro modelo porque cada modelo tem aproximadamente a mesma capacidade de explicar a variação dos preços das casas, mas o primeiro modelo é muito mais fácil de compreender e explicar.
Por exemplo, no primeiro modelo, sabemos que um aumento de uma unidade na metragem quadrada de uma casa está associado a um aumento médio no preço da casa de $81. É simples de entender e explicar.
Contudo, no segundo exemplo, as estimativas dos coeficientes são muito mais difíceis de interpretar. Por exemplo, um cômodo extra na casa está associado a um aumento médio no preço da casa de US$ 600, assumindo que a metragem quadrada, a idade da casa e o número de banheiros permanecem constantes. É muito mais difícil de entender e explicar.
Exemplo 2: Modelos parcimoniosos = melhores previsões
Os modelos parcimoniosos também tendem a fazer previsões mais precisas em novos conjuntos de dados porque são menos propensos a superajustar o conjunto de dados original.
Em geral, modelos com mais parâmetros produzirão ajustes mais justos e valores de R 2 mais elevados do que modelos com menos parâmetros. Infelizmente, incluir demasiados parâmetros num modelo pode fazer com que o modelo se ajuste ao ruído (ou à “aleatoriedade”) dos dados, em vez da verdadeira relação subjacente entre as variáveis explicativas. e variáveis de resposta.
Isto significa que um modelo muito complexo com muitos parâmetros provavelmente terá um desempenho insatisfatório em um novo conjunto de dados nunca visto antes, em comparação com um modelo mais simples com menos parâmetros.
Como escolher um modelo parcimonioso
Poderia haver um curso inteiro dedicado ao tema seleção de modelos , mas essencialmente, escolher um modelo parcimonioso significa escolher um modelo com melhor desempenho de acordo com uma métrica.
As métricas comumente usadas que avaliam modelos com base em seu desempenho em um conjunto de dados de treinamento e seu número de parâmetros incluem:
1. Critério de Informação de Akaike (AIC)
O AIC de um modelo pode ser calculado da seguinte forma:
AIC = -2/n * LL + 2 * k/n
Ouro:
- n: número de observações no conjunto de dados de treinamento.
- LL: log-verossimilhança do modelo no conjunto de dados de treinamento.
- k: Número de parâmetros do modelo.
Usando este método, você pode calcular o AIC de cada modelo e então selecionar o modelo com o menor valor de AIC como o melhor modelo.
Esta abordagem tende a favorecer modelos mais complexos em comparação com o próximo método, BIC.
2. Critério de Informação Bayesiano (BIC)
O BIC de um modelo pode ser calculado da seguinte forma:
BIC = -2 * LL + log(n) * k
Ouro:
- n: número de observações no conjunto de dados de treinamento.
- log: O logaritmo natural (base e)
- LL: log-verossimilhança do modelo no conjunto de dados de treinamento.
- k: Número de parâmetros do modelo.
Usando este método, você pode calcular o BIC de cada modelo e então selecionar o modelo com o menor valor de BIC como o melhor modelo.
Esta abordagem tende a favorecer modelos com menos parâmetros em comparação com o método AIC.
3. Comprimento mínimo de descrição (MDL)
MDL é uma forma de avaliar modelos do campo da teoria da informação. Pode ser calculado da seguinte forma:
MDL = L(h) + L(D | h)
Ouro:
- h: O modelo.
- D: Previsões feitas pelo modelo.
- L(h): Número de bits necessários para representar o modelo.
- L(D | h): número de bits necessários para representar as previsões do modelo nos dados de treinamento.
Usando este método, você pode calcular o MDL de cada modelo e então selecionar o modelo com o menor valor de MDL como o melhor modelo.
Dependendo do tipo de problema em que você está trabalhando, um desses métodos – AIC, BIC ou MDL – pode ser preferido aos outros para selecionar um modelo parcimonioso.