Uma introdução aos mínimos quadrados parciais
Um dos problemas mais comuns que você encontrará no aprendizado de máquina é a multicolinearidade . Isso ocorre quando duas ou mais variáveis preditoras em um conjunto de dados estão altamente correlacionadas.
Quando isso acontece, um modelo pode ser capaz de ajustar bem um conjunto de dados de treinamento, mas pode ter um desempenho ruim em um novo conjunto de dados que nunca viu, porque se ajusta demais ao conjunto de dados de treinamento. conjunto de treinamento.
Uma maneira de contornar o problema da multicolinearidade é usar a regressão de componentes principais , que calcula M combinações lineares (chamadas de “componentes principais”) das variáveis preditoras p originais e, em seguida, usa o método dos mínimos quadrados para ajustar um modelo de regressão linear usando o principal. componentes como preditores.
A desvantagem da regressão em componentes principais (PCR) é que ela não leva em consideração a variável resposta no cálculo dos componentes principais.
Em vez disso, considera apenas a magnitude da variância entre as variáveis preditoras capturadas pelos componentes principais. Por esta razão, é possível que em alguns casos as componentes principais com os maiores desvios não sejam capazes de prever bem a variável resposta.
Uma técnica relacionada à PCR é conhecida como mínimos quadrados parciais . Semelhante ao PCR, os mínimos quadrados parciais calculam combinações lineares M (chamadas de “componentes PLS”) das variáveis preditoras p originais e usa o método dos mínimos quadrados para ajustar um modelo de regressão linear usando os componentes PLS como preditores.
Mas, diferentemente da PCR, os mínimos quadrados parciais tentam encontrar combinações lineares que expliquem a variação tanto na variável de resposta quanto nas variáveis preditoras.
Etapas para realizar mínimos quadrados parciais
Na prática, as etapas a seguir são usadas para realizar mínimos quadrados parciais.
1. Padronize os dados de forma que todas as variáveis preditoras e a variável de resposta tenham média 0 e desvio padrão 1. Isso garante que cada variável seja medida na mesma escala.
2. Calcule Z 1 , … , Z M como as M combinações lineares dos p preditores originais.
- Z m = ΣΦ jm _
- Para calcular Z 1 , defina Φ j1 igual ao coeficiente da regressão linear simples de Y em X j é a combinação linear de preditores que captura a maior variância possível.
- Para calcular Z 2 , regrida cada variável em Z 1 e pegue os resíduos. Em seguida, calcule Z 2 usando esses dados ortogonalizados exatamente da mesma maneira que Z 1 foi calculado.
- Repita este processo M vezes para obter componentes M PLS.
3. Use o método dos mínimos quadrados para ajustar um modelo de regressão linear usando os componentes PLS Z 1 , … , Z M como preditores.
4. Finalmente, use a validação cruzada k-fold para encontrar o número ideal de componentes PLS a serem mantidos no modelo. O número “ideal” de componentes do PLS a serem mantidos é geralmente o número que produz o menor erro quadrático médio de teste (MSE).
Conclusão
Nos casos em que a multicolinearidade está presente em um conjunto de dados, a regressão de mínimos quadrados parciais tende a ter melhor desempenho do que a regressão de mínimos quadrados comum. No entanto, é uma boa ideia ajustar vários modelos diferentes para que você possa identificar qual deles generaliza melhor para dados não vistos.
Na prática, ajustamos muitos tipos diferentes de modelos (PLS, PCR , Ridge , Lasso , Regressão Linear Múltipla , etc.) a um conjunto de dados e usamos validação cruzada k-fold para identificar o modelo que produz melhor o teste MSE. menor em novos dados. .