Uma introdução à regressão de componentes principais


Um dos problemas mais comuns que você encontrará ao criar modelos é a multicolinearidade . Isso ocorre quando duas ou mais variáveis preditoras em um conjunto de dados estão altamente correlacionadas.

Quando isso acontece, um determinado modelo pode ser capaz de se ajustar bem a um conjunto de dados de treinamento, mas provavelmente terá um desempenho ruim em um novo conjunto de dados que nunca viu porque se ajusta demais ao conjunto de treinamento.

Uma maneira de evitar o overfitting é usar algum tipo de método de seleção de subconjunto como:

Esses métodos tentam remover preditores irrelevantes do modelo, de modo que apenas os preditores mais importantes, capazes de prever a variação na variável resposta, sejam deixados no modelo final.

Outra maneira de evitar overfitting é usar algum tipo de método de regularização , como:

Esses métodos tentam restringir ou regularizar os coeficientes de um modelo para reduzir a variância e, assim, produzir modelos capazes de generalizar bem para novos dados.

Uma abordagem totalmente diferente para lidar com a multicolinearidade é conhecida como redução dimensional .

Um método comum de redução de dimensão é conhecido como regressão de componentes principais , que funciona da seguinte forma:

1. Suponha que um determinado conjunto de dados contenha p preditores :

2. Calcule Z 1 , … , Z M como as M combinações lineares dos p preditores originais.

  • Z m = ΣΦ jm _
  • Z 1 é a combinação linear de preditores que captura o máximo de variação possível.
  • Z 2 é a próxima combinação linear de preditores que captura a maior variância enquanto é ortogonal (ou seja, não correlacionada) a Z 1 .
  • Z 3 é então a próxima combinação linear de preditores que captura a maior variação enquanto é ortogonal a Z 2 .
  • E assim por diante.

3. Use o método dos mínimos quadrados para ajustar um modelo de regressão linear usando os primeiros M componentes principais Z 1 , …, Z M como preditores.

O termo redução de dimensão vem do fato de que este método deve estimar apenas coeficientes M+1 em vez de coeficientes p+1, onde M < p.

Ou seja, a dimensão do problema foi reduzida de p+1 para M+1.

Em muitos casos em que a multicolinearidade está presente em um conjunto de dados, a regressão de componentes principais é capaz de produzir um modelo que pode generalizar para novos dados melhor do que a regressão linear múltipla convencional.

Etapas para realizar a regressão de componentes principais

Na prática, as seguintes etapas são usadas para realizar a regressão de componentes principais:

1. Padronize os preditores.

Primeiro, normalmente padronizamos os dados de modo que cada variável preditora tenha um valor médio de 0 e um desvio padrão de 1. Isso evita que um preditor tenha muita influência, especialmente se for medido em unidades diferentes (c, isto é, se 1 é medido em polegadas). e X 2 é medido em jardas).

2. Calcule os componentes principais e realize uma regressão linear utilizando os componentes principais como preditores.

A seguir, calculamos os componentes principais e usamos o método dos mínimos quadrados para ajustar um modelo de regressão linear usando os primeiros M componentes principais Z 1 , …, Z M como preditores.

3. Decida quantos componentes principais manter.

A seguir, usamos a validação cruzada k-fold para encontrar o número ideal de componentes principais a serem mantidos no modelo. O número “ótimo” de componentes principais a serem mantidos é geralmente o número que produz o menor erro quadrático médio (MSE) do teste.

Vantagens e desvantagens da regressão de componentes principais

A regressão de componentes principais (PCR) oferece as seguintes vantagens :

  • A PCR tende a ter um bom desempenho quando os primeiros componentes principais são capazes de capturar a maior parte da variação nos preditores, bem como a relação com a variável resposta.
  • A PCR pode ter um bom desempenho mesmo quando as variáveis preditoras são altamente correlacionadas, porque produz componentes principais que são ortogonais (isto é, não correlacionados) entre si.
  • O PCR não exige que você escolha quais variáveis preditoras remover do modelo, pois cada componente principal usa uma combinação linear de todas as variáveis preditoras.
  • A PCR pode ser usada quando há mais variáveis preditoras do que observações, ao contrário da regressão linear múltipla.

No entanto, o PCR tem uma desvantagem:

  • A PCR não leva em consideração a variável de resposta ao decidir quais componentes principais manter ou remover. Em vez disso, considera apenas a magnitude da variância entre as variáveis preditoras capturadas pelos componentes principais. É possível que em alguns casos os componentes principais com as maiores diferenças não sejam capazes de prever bem a variável resposta.

Na prática, ajustamos muitos tipos diferentes de modelos (PCR, Ridge, Lasso, regressão linear múltipla, etc.) e usamos validação cruzada k-fold para identificar o modelo que produz o teste MSE mais baixo nos novos dados.

Nos casos em que a multicolinearidade está presente no conjunto de dados original (o que é frequentemente o caso), a PCR tende a ter um desempenho melhor do que a regressão de mínimos quadrados comum. No entanto, é uma boa ideia ajustar vários modelos diferentes para que você possa identificar qual deles generaliza melhor para dados não vistos.

Regressão de componentes principais em R e Python

Os tutoriais a seguir mostram como realizar a regressão de componentes principais em R e Python:

Regressão de componentes principais em R (passo a passo)
Regressão de componentes principais em Python (passo a passo)

Add a Comment

O seu endereço de email não será publicado. Campos obrigatórios marcados com *