Un'introduzione alla regressione delle componenti principali


Uno dei problemi più comuni che incontrerai durante la creazione di modelli è la multicollinearità . Ciò si verifica quando due o più variabili predittive in un set di dati sono altamente correlate.

Quando ciò accade, un dato modello potrebbe essere in grado di adattarsi bene a un set di dati di addestramento, ma probabilmente funzionerà male su un nuovo set di dati che non ha mai visto perché si adatta eccessivamente al set di dati di addestramento.

Un modo per evitare l’adattamento eccessivo è utilizzare un tipo di metodo di selezione del sottoinsieme come:

Questi metodi tentano di rimuovere i predittori irrilevanti dal modello in modo che nel modello finale vengano lasciati solo i predittori più importanti in grado di prevedere la variazione nella variabile di risposta.

Un altro modo per evitare l’overfitting è utilizzare qualche tipo di metodo di regolarizzazione come:

Questi metodi tentano di vincolare o regolarizzare i coefficienti di un modello per ridurre la varianza e quindi produrre modelli in grado di generalizzarsi bene a nuovi dati.

Un approccio completamente diverso per gestire la multicollinearità è noto come riduzione dimensionale .

Un metodo comune di riduzione delle dimensioni è noto come regressione delle componenti principali , che funziona come segue:

1. Supponiamo che un dato set di dati contenga p predittori :

2. Calcolare Z 1 , … , Z M come le M combinazioni lineari dei predittori p originali.

  • Z m = ΣΦ jm _
  • Z 1 è la combinazione lineare di predittori che cattura quanta più varianza possibile.
  • Z 2 è la successiva combinazione lineare di predittori che cattura la maggior varianza pur essendo ortogonale (cioè non correlata) a Z 1 .
  • Z 3 è quindi la successiva combinazione lineare di predittori che cattura la maggiore varianza pur essendo ortogonale a Z 2 .
  • E così via.

3. Utilizzare il metodo dei minimi quadrati per adattare un modello di regressione lineare utilizzando le prime M componenti principali Z 1 , …, Z M come predittori.

Il termine riduzione di dimensione deriva dal fatto che questo metodo deve stimare solo i coefficienti M+1 invece dei coefficienti p+1, dove M < p.

In altre parole, la dimensione del problema è stata ridotta da p+1 a M+1.

In molti casi in cui è presente la multicollinearità in un set di dati, la regressione delle componenti principali è in grado di produrre un modello in grado di generalizzare a nuovi dati meglio della regressione lineare multipla convenzionale.

Passaggi per eseguire la regressione delle componenti principali

In pratica, per eseguire la regressione delle componenti principali vengono utilizzati i seguenti passaggi:

1. Standardizzare i predittori.

Innanzitutto, in genere standardizziamo i dati in modo tale che ciascuna variabile predittrice abbia un valore medio pari a 0 e una deviazione standard pari a 1. Ciò impedisce a un predittore di avere troppa influenza, soprattutto se viene misurato in unità diverse (c cioè se 1 è misurato in pollici). e X 2 è misurato in iarde).

2. Calcolare le componenti principali ed eseguire una regressione lineare utilizzando le componenti principali come predittori.

Successivamente, calcoliamo le componenti principali e utilizziamo il metodo dei minimi quadrati per adattare un modello di regressione lineare utilizzando le prime M componenti principali Z 1 , …, Z M come predittori.

3. Decidere quanti componenti principali conservare.

Successivamente, utilizziamo la convalida incrociata k-fold per trovare il numero ottimale di componenti principali da mantenere nel modello. Il numero “ottimale” di componenti principali da mantenere è generalmente il numero che produce l’errore quadratico medio (MSE) più basso del test.

Vantaggi e svantaggi della regressione delle componenti principali

La regressione delle componenti principali (PCR) offre i seguenti vantaggi :

  • La PCR tende a funzionare bene quando i primi componenti principali sono in grado di catturare la maggior parte della variazione dei predittori nonché la relazione con la variabile di risposta.
  • La PCR può funzionare bene anche quando le variabili predittive sono altamente correlate, perché produce componenti principali che sono ortogonali (cioè non correlate) tra loro.
  • La PCR non richiede di scegliere quali variabili predittive rimuovere dal modello poiché ciascun componente principale utilizza una combinazione lineare di tutte le variabili predittive.
  • La PCR può essere utilizzata quando sono presenti più variabili predittive che osservazioni, a differenza della regressione lineare multipla.

Tuttavia, la PCR presenta uno svantaggio:

  • La PCR non tiene conto della variabile di risposta al momento di decidere quali componenti principali mantenere o rimuovere. Considera invece solo l’entità della varianza tra le variabili predittive catturate dalle componenti principali. È possibile che in alcuni casi le componenti principali con le maggiori differenze non siano in grado di prevedere bene la variabile di risposta.

In pratica, adattiamo molti tipi diversi di modelli (PCR, Ridge, Lasso, regressione lineare multipla, ecc.) e utilizziamo la convalida incrociata k-fold per identificare il modello che produce il test MSE più basso sui nuovi dati.

Nei casi in cui è presente la multicollinearità nel set di dati originale (che è spesso il caso), la PCR tende a funzionare meglio della regressione ordinaria ai minimi quadrati. Tuttavia, è una buona idea adattare diversi modelli in modo da poter identificare quale generalizza meglio i dati invisibili.

Regressione dei componenti principali in R e Python

I seguenti tutorial mostrano come eseguire la regressione dei componenti principali in R e Python:

Regressione delle componenti principali in R (passo dopo passo)
Regressione dei componenti principali in Python (passo dopo passo)

Aggiungi un commento

Il tuo indirizzo email non sarà pubblicato. I campi obbligatori sono contrassegnati *