Qu’est-ce qu’un modèle parcimonieux ?
Un modèle parcimonieux est un modèle qui atteint un niveau souhaité d’ajustement en utilisant le moins de variables explicatives possible.
Le raisonnement derrière ce type de modèle découle de l’idée du rasoir d’Occam (parfois appelé « principe de parcimonie ») qui dit que l’explication la plus simple est probablement la bonne.
Appliqué aux statistiques, un modèle qui a peu de paramètres mais atteint un niveau d’ajustement satisfaisant doit être préféré à un modèle qui a une tonne de paramètres et n’atteint qu’un niveau d’ajustement légèrement supérieur.
Il y a deux raisons à cela :
1. Les modèles parcimonieux sont plus faciles à interpréter et à comprendre. Les modèles avec moins de paramètres sont plus faciles à comprendre et à expliquer.
2. Les modèles parcimonieux ont tendance à avoir une plus grande capacité prédictive. Les modèles comportant moins de paramètres ont tendance à mieux fonctionner lorsqu’ils sont appliqués à de nouvelles données.
Considérez les deux exemples suivants pour illustrer ces idées.
Exemple 1 : Modèles parcimonieux = Interprétation facile
Supposons que nous souhaitions construire un modèle utilisant un ensemble de variables explicatives liées à l’immobilier pour prédire les prix de l’immobilier. Considérez les deux modèles suivants avec leur R au carré ajusté :
Modèle 1 :
- Équation : Prix de la maison = 8 830 + 81*(pieds carrés)
- R2 ajusté : 0,7734
Modèle 2 :
- Équation : Prix de la maison = 8 921 + 77*(pieds carrés) + 7*(pieds carrés) 2 – 9*(âge) + 600*(chambres) + 38*(bains)
- R2 ajusté : 0,7823
Le premier modèle ne comporte qu’une seule variable explicative et un R 2 ajusté de 0,7734, tandis que le deuxième modèle comporte cinq variables explicatives avec un R 2 ajusté légèrement plus élevé.
Basé sur le principe de parcimonie, nous préférerions utiliser le premier modèle car chaque modèle a à peu près la même capacité à expliquer la variation des prix de l’immobilier mais le premier modèle est beaucoup plus facile à comprendre et à expliquer.
Par exemple, dans le premier modèle, nous savons qu’une augmentation d’une unité de la superficie d’une maison est associée à une augmentation moyenne du prix de l’immobilier de 81 $. C’est simple à comprendre et à expliquer.
Cependant, dans le deuxième exemple, les estimations des coefficients sont beaucoup plus difficiles à interpréter. Par exemple, une pièce supplémentaire dans la maison est associée à une augmentation moyenne du prix de la maison de 600 $, en supposant que la superficie en pieds carrés, l’âge de la maison et le nombre de salles de bains restent constants. C’est beaucoup plus difficile à comprendre et à expliquer.
Exemple 2 : Modèles parcimonieux = meilleures prédictions
Les modèles parcimonieux ont également tendance à faire des prédictions plus précises sur les nouveaux ensembles de données, car ils sont moins susceptibles de surajuster l’ensemble de données d’origine.
En général, les modèles avec plus de paramètres produiront des ajustements plus serrés et des valeurs R 2 plus élevées que les modèles avec moins de paramètres. Malheureusement, l’inclusion d’un trop grand nombre de paramètres dans un modèle peut amener le modèle à s’adapter au bruit (ou « caractère aléatoire ») des données, plutôt qu’à la véritable relation sous-jacente entre les variables explicatives et les variables de réponse.
Cela signifie qu’un modèle très complexe avec de nombreux paramètres est susceptible d’avoir des performances médiocres sur un nouvel ensemble de données qu’il n’a jamais vu auparavant, par rapport à un modèle plus simple avec moins de paramètres.
Comment choisir un modèle parcimonieux
Il pourrait y avoir un cours entier consacré au thème de la sélection de modèle , mais essentiellement, choisir un modèle parcimonieux revient à choisir un modèle qui fonctionne le mieux selon une métrique.
Les métriques couramment utilisées qui évaluent les modèles en fonction de leurs performances sur un ensemble de données d’entraînement et de leur nombre de paramètres incluent :
1. Critère d’information Akaike (AIC)
L’AIC d’un modèle peut être calculé comme suit :
AIC = -2/n * LL + 2 * k/n
où:
- n : nombre d’observations dans l’ensemble de données d’entraînement.
- LL : log-vraisemblance du modèle sur l’ensemble de données d’entraînement.
- k : Nombre de paramètres dans le modèle.
En utilisant cette méthode, vous pouvez calculer l’AIC de chaque modèle, puis sélectionner le modèle avec la valeur AIC la plus basse comme meilleur modèle.
Cette approche tend à privilégier des modèles plus complexes par rapport à la méthode suivante, BIC.
2. Critère d’information bayésien (BIC)
Le BIC d’un modèle peut être calculé comme suit :
BIC = -2 * LL + log(n) * k
où:
- n : nombre d’observations dans l’ensemble de données d’entraînement.
- log : Le logarithme népérien (de base e)
- LL : log-vraisemblance du modèle sur l’ensemble de données d’entraînement.
- k : Nombre de paramètres dans le modèle.
En utilisant cette méthode, vous pouvez calculer le BIC de chaque modèle, puis sélectionner le modèle avec la valeur BIC la plus basse comme meilleur modèle.
Cette approche tend à privilégier les modèles avec moins de paramètres par rapport à la méthode AIC.
3. Longueur minimale de description (MDL)
Le MDL est un moyen d’évaluer des modèles issus du domaine de la théorie de l’information. Il peut être calculé comme suit :
MDL = L(h) + L(D | h)
où:
- h : Le modèle.
- D : Prédictions faites par le modèle.
- L(h) : Nombre de bits requis pour représenter le modèle.
- L(D | h) : nombre de bits requis pour représenter les prédictions du modèle sur les données d’entraînement.
En utilisant cette méthode, vous pouvez calculer le MDL de chaque modèle, puis sélectionner le modèle avec la valeur MDL la plus basse comme meilleur modèle.
Selon le type de problème sur lequel vous travaillez, l’une de ces méthodes – AIC, BIC ou MDL – peut être préférée aux autres pour sélectionner un modèle parcimonieux.