Une introduction aux splines de régression adaptative multivariées



Lorsque la relation entre un ensemble de variables prédictives et une variable de réponse est linéaire, nous pouvons souvent utiliser la régression linéaire , qui suppose que la relation entre une variable prédictive donnée et une variable de réponse prend la forme :

Y = β 0 + β 1 X + ε

Mais en pratique, la relation entre les variables peut en réalité être non linéaire et tenter d’utiliser la régression linéaire peut aboutir à un modèle mal ajusté.

Une façon de prendre en compte une relation non linéaire entre le prédicteur et la variable de réponse consiste à utiliser la régression polynomiale , qui prend la forme :

Y = β 0 + β 1 X + β 2 X 2 + … + β h X h + ε

Dans cette équation, h est appelé le « degré » du polynôme. À mesure que nous augmentons la valeur de h , le modèle devient plus flexible et est capable de s’adapter aux données non linéaires.

Cependant, la régression polynomiale présente quelques inconvénients :

1. La régression polynomiale peut facilement surajuster un ensemble de données si le degré , h , est choisi trop grand. En pratique, h est rarement supérieur à 3 ou 4 car au-delà de ce point, il correspond simplement au bruit d’un ensemble d’apprentissage et ne se généralise pas bien aux données invisibles.

2. La régression polynomiale impose une fonction globale sur l’ensemble des données, qui n’est pas toujours précise.

Une alternative à la régression polynomiale est les splines de régression adaptative multivariée .

L’idée de base

Les splines de régression adaptative multivariée fonctionnent comme suit :

1. Divisez un ensemble de données en k morceaux.

Tout d’abord, nous divisons un ensemble de données en k éléments différents. Les points où nous divisons l’ensemble de données sont appelés nœuds .

Nous identifions les nœuds en évaluant chaque point pour chaque prédicteur comme un nœud potentiel et en créant un modèle de régression linéaire à l’aide des caractéristiques candidates. Le point capable de réduire le plus d’erreurs dans le modèle est le nœud.

Une fois que nous avons identifié le premier nœud, nous répétons le processus pour trouver des nœuds supplémentaires. Vous pouvez trouver autant de nœuds que vous jugez raisonnable de commencer.

2. Ajustez une fonction de régression à chaque pièce pour former une fonction charnière.

Une fois que nous avons choisi les nœuds et ajusté un modèle de régression à chaque élément de l’ensemble de données, nous nous retrouvons avec ce qu’on appelle une fonction charnière , notée h(xa) , où a est la ou les valeurs de seuil.

Par exemple, la fonction charnière pour un modèle à un nœud peut être la suivante :

  • y = β 0 + β 1 (4,3 – x) si x < 4,3
  • y = β 0 + β 1 (x – 4,3) si x > 4,3

Dans ce cas, il a été déterminé que le choix de 4,3 comme valeur seuil permettait de réduire au maximum l’erreur parmi toutes les valeurs seuils possibles. Nous ajustons ensuite un modèle de régression différent aux valeurs inférieures à 4,3 par rapport aux valeurs supérieures à 4,3.

Une fonction charnière à deux nœuds peut être la suivante :

  • y = β 0 + β 1 (4,3 – x) si x < 4,3
  • y = β 0 + β 1 (x – 4,3) si x > 4,3 & x < 6,7
  • y = β 0 + β 1 (6,7 – x) si x > 6,7

Dans ce cas, il a été déterminé que le choix de 4,3 et 6,7 comme valeurs seuils permettait de réduire au maximum l’erreur parmi toutes les valeurs seuils possibles. Nous ajustons ensuite un modèle de régression aux valeurs inférieures à 4,3, un autre modèle de régression aux valeurs comprises entre 4,3 et 6,7 et un autre modèle de régression aux valeurs supérieures à 4,3.

3. Choisissez k en fonction de la validation croisée k fois.

Enfin, une fois que nous avons ajusté plusieurs modèles différents en utilisant un nombre différent de nœuds pour chaque modèle, nous pouvons effectuer une validation croisée k fois pour identifier le modèle qui produit l’erreur quadratique moyenne (MSE) de test la plus faible.

Le modèle avec le MSE de test le plus bas est choisi comme étant le modèle qui généralise le mieux aux nouvelles données.

Avantages et inconvénients

Les splines de régression adaptative multivariées présentent les avantages et les inconvénients suivants :

Avantages :

Les inconvénients:

  • Il a tendance à ne pas fonctionner aussi bien que les méthodes non linéaires telles que les forêts aléatoires et les machines d’augmentation de gradient.

Comment adapter les modèles MARS dans R & Python

Les didacticiels suivants fournissent des exemples étape par étape sur la manière d’ajuster les splines de régression adaptative multivariée (MARS) dans R et Python :

Splines de régression adaptative multivariée dans R
Splines de régression adaptative multivariée en Python

Ajouter un commentaire

Votre adresse e-mail ne sera pas publiée. Les champs obligatoires sont indiqués avec *