Une introduction aux moindres carrés partiels



L’un des problèmes les plus courants que vous rencontrerez en apprentissage automatique est la multicolinéarité . Cela se produit lorsque deux variables prédictives ou plus dans un ensemble de données sont fortement corrélées.

Lorsque cela se produit, un modèle peut être capable de bien s’adapter à un ensemble de données d’entraînement, mais il peut avoir des performances médiocres sur un nouvel ensemble de données qu’il n’a jamais vu, car il surajuste l’ensemble d’entraînement.

Une façon de contourner le problème de la multicolinéarité consiste à utiliser la régression en composantes principales , qui calcule M combinaisons linéaires (appelées « composantes principales ») des p variables prédictives d’origine, puis utilise la méthode des moindres carrés pour ajuster un modèle de régression linéaire en utilisant les principales composantes comme prédicteurs.

L’inconvénient de la régression en composantes principales (PCR) est qu’elle ne prend pas en compte la variable de réponse lors du calcul des composantes principales.

Au lieu de cela, il considère uniquement l’ampleur de la variance entre les variables prédictives capturées par les composantes principales. Pour cette raison, il est possible que dans certains cas, les composantes principales présentant les écarts les plus importants ne soient pas en mesure de bien prédire la variable de réponse.

Une technique liée à la PCR est connue sous le nom de moindres carrés partiels . Semblable à la PCR, la méthode des moindres carrés partiels calcule M combinaisons linéaires (appelées « composantes PLS ») des p variables prédictives d’origine et utilise la méthode des moindres carrés pour ajuster un modèle de régression linéaire en utilisant les composantes PLS comme prédicteurs.

Mais contrairement à la PCR, les moindres carrés partiels tentent de trouver des combinaisons linéaires qui expliquent la variation à la fois de la variable de réponse et des variables prédictives.

Étapes pour effectuer les moindres carrés partiels

En pratique, les étapes suivantes sont utilisées pour réaliser des moindres carrés partiels.

1. Standardisez les données de telle sorte que toutes les variables prédictives et la variable de réponse aient une moyenne de 0 et un écart type de 1. Cela garantit que chaque variable est mesurée sur la même échelle.

2. Calculez Z 1 , … , Z M comme étant les M combinaisons linéaires des p prédicteurs d’origine.

  • Z m = ΣΦ jm X j pour certaines constantes Φ 1m , Φ 2m , Φ pm , m = 1, …, M.
  • Pour calculer Z 1 , définissez Φ j1 égal au coefficient de la régression linéaire simple de Y sur X j est la combinaison linéaire des prédicteurs qui capture le plus de variance possible.
  • Pour calculer Z 2 , régressionz chaque variable sur Z 1 et prenez les résidus. Calculez ensuite Z 2 en utilisant ces données orthogonalisées exactement de la même manière que Z 1 a été calculé.
  • Répétez ce processus M fois pour obtenir les composants M PLS.

3. Utilisez la méthode des moindres carrés pour ajuster un modèle de régression linéaire en utilisant les composantes PLS Z 1 , … , Z M comme prédicteurs.

4. Enfin, utilisez la validation croisée k-fold pour trouver le nombre optimal de composants PLS à conserver dans le modèle. Le nombre « optimal » de composants PLS à conserver est généralement le nombre qui produit l’erreur quadratique moyenne (MSE) de test la plus faible.

Conclusion

Dans les cas où la multicolinéarité est présente dans un ensemble de données, la régression des moindres carrés partiels a tendance à être plus performante que la régression des moindres carrés ordinaires. Cependant, c’est une bonne idée d’adapter plusieurs modèles différents afin de pouvoir identifier celui qui généralise le mieux aux données invisibles.

En pratique, nous adaptons de nombreux types de modèles différents (PLS, PCR , Ridge , Lasso , Multiple Linear Regression , etc.) à un ensemble de données et utilisons la validation croisée k fois pour identifier le modèle qui produit le MSE de test le plus bas sur de nouvelles données. .

Ajouter un commentaire

Votre adresse e-mail ne sera pas publiée. Les champs obligatoires sont indiqués avec *