Un'introduzione ai minimi quadrati parziali


Uno dei problemi più comuni che incontrerai nell’apprendimento automatico è la multicollinearità . Ciò si verifica quando due o più variabili predittive in un set di dati sono altamente correlate.

Quando ciò accade, un modello potrebbe essere in grado di adattarsi bene a un set di dati di addestramento, ma potrebbe funzionare male su un nuovo set di dati che non ha mai visto perché si adatta eccessivamente al set di dati di addestramento. insieme di formazione.

Un modo per aggirare il problema della multicollinearità è utilizzare la regressione delle componenti principali , che calcola M combinazioni lineari (chiamate “componenti principali”) delle variabili predittive p originali e quindi utilizza il metodo dei minimi quadrati per adattare un modello di regressione lineare utilizzando il principio componenti come predittori.

Lo svantaggio della regressione delle componenti principali (PCR) è che non tiene conto della variabile di risposta nel calcolo delle componenti principali.

Considera invece solo l’entità della varianza tra le variabili predittive catturate dalle componenti principali. Per questo motivo è possibile che in alcuni casi le componenti principali con le maggiori deviazioni non siano in grado di prevedere bene la variabile di risposta.

Una tecnica correlata alla PCR è nota come minimi quadrati parziali . Similmente alla PCR, i minimi quadrati parziali calcolano M combinazioni lineari (chiamate “componenti PLS”) delle variabili predittive p originali e utilizzano il metodo dei minimi quadrati per adattare un modello di regressione lineare utilizzando i componenti PLS come predittori.

Ma a differenza della PCR, i minimi quadrati parziali tentano di trovare combinazioni lineari che spieghino la variazione sia nella variabile di risposta che nelle variabili predittive.

Passaggi per eseguire i minimi quadrati parziali

In pratica, i seguenti passaggi vengono utilizzati per eseguire i minimi quadrati parziali.

1. Standardizzare i dati in modo tale che tutte le variabili predittive e la variabile di risposta abbiano una media pari a 0 e una deviazione standard pari a 1. Ciò garantisce che ciascuna variabile sia misurata sulla stessa scala.

2. Calcolare Z 1 , … , Z M come le M combinazioni lineari dei predittori p originali.

  • Z m = ΣΦ jm _
  • Per calcolare Z 1 , impostare Φ j1 uguale al coefficiente della regressione lineare semplice di Y su X j è la combinazione lineare di predittori che cattura quanta più varianza possibile.
  • Per calcolare Z 2 , regredire ciascuna variabile su Z 1 e prendere i residui. Quindi calcola Z 2 utilizzando questi dati ortogonali esattamente nello stesso modo in cui è stato calcolato Z 1 .
  • Ripetere questo processo M volte per ottenere M componenti PLS.

3. Utilizzare il metodo dei minimi quadrati per adattare un modello di regressione lineare utilizzando i componenti PLS Z 1 , … , Z M come predittori.

4. Infine, utilizzare la convalida incrociata k-fold per trovare il numero ottimale di componenti PLS da mantenere nel modello. Il numero “ottimale” di componenti PLS da conservare è generalmente il numero che produce il più basso errore quadratico medio del test (MSE).

Conclusione

Nei casi in cui in un set di dati è presente la multicollinearità, la regressione parziale dei minimi quadrati tende a funzionare meglio della regressione ordinaria dei minimi quadrati. Tuttavia, è una buona idea adattare diversi modelli in modo da poter identificare quale generalizza meglio i dati invisibili.

In pratica, adattiamo molti tipi diversi di modelli (PLS, PCR , Ridge , Lasso , Regressione lineare multipla , ecc.) a un set di dati e utilizziamo la convalida incrociata k-fold per identificare il modello che produce meglio il test MSE. inferiore sui nuovi dati. .

Aggiungi un commento

Il tuo indirizzo email non sarà pubblicato. I campi obbligatori sono contrassegnati *