Qu’est-ce qui est considéré comme une bonne valeur AIC ?
Le critère d’information d’Akaike (AIC) est une métrique utilisée pour comparer l’ajustement de différents modèles de régression.
Il est calculé comme suit :
AIC = 2K – 2 ln (L)
où:
- K : Le nombre de paramètres du modèle.
- ln (L) : La log-vraisemblance du modèle. Cela nous indique la probabilité du modèle, compte tenu des données.
Une fois que vous avez ajusté plusieurs modèles de régression, vous pouvez comparer la valeur AIC de chaque modèle. Le modèle avec l’AIC le plus bas offre le meilleur ajustement.
Une question que les étudiants se posent souvent à propos de l’AIC est la suivante : qu’est-ce qui est considéré comme une bonne valeur d’AIC ?
La réponse simple : il n’y a aucune valeur pour l’AIC qui puisse être considérée comme « bonne » ou « mauvaise » car nous utilisons simplement l’AIC comme moyen de comparer les modèles de régression. Le modèle avec l’AIC le plus bas offre le meilleur ajustement. La valeur absolue de la valeur AIC n’est pas importante.
Par exemple, si le modèle 1 a une valeur AIC de 730,5 et que le modèle 2 a une valeur AIC de 456,3, alors le modèle 2 offre un meilleur ajustement. Les valeurs absolues de l’AIC ne sont pas importantes.
Une référence utile sur ce sujet provient de Serious Stats : A Guide to Advanced Statistics for the Behavioral Sciences à la page 402 :
Comme pour la vraisemblance, la valeur absolue de l’AIC n’a en grande partie aucun sens (étant déterminée par la constante arbitraire). Comme cette constante dépend des données, l’AIC peut être utilisée pour comparer des modèles ajustés sur des échantillons identiques.
Le meilleur modèle parmi l’ensemble des modèles plausibles considérés est donc celui avec la plus petite valeur AIC (la moindre perte d’information par rapport au modèle réel).
Comme indiqué dans le manuel, la valeur absolue de l’AIC n’est pas importante. Nous utilisons simplement les valeurs AIC pour comparer l’ajustement des modèles et le modèle avec la valeur AIC la plus basse est le meilleur.
Comment déterminer si un modèle s’adapte bien à un ensemble de données
La valeur AIC est un moyen utile de déterminer quel modèle de régression correspond le mieux à un ensemble de données parmi une liste de modèles potentiels, mais elle ne quantifie pas réellement dans quelle mesure le modèle s’adapte aux données.
Par exemple, un modèle de régression particulier peut avoir la valeur AIC la plus faible parmi une liste de modèles potentiels, mais il peut néanmoins s’agir d’un modèle mal ajusté.
Pour déterminer si un modèle s’adapte bien à un ensemble de données, nous pouvons utiliser les deux métriques suivantes :
- Mallows’ Cp : Une métrique qui quantifie le degré de biais dans les modèles de régression.
- R-carré ajusté : proportion de la variance de la variable de réponse qui peut être expliquée par les variables prédictives du modèle, ajustée en fonction du nombre de variables prédictives dans le modèle.
Une stratégie potentielle pour choisir le « meilleur » modèle de régression parmi plusieurs modèles potentiels est la suivante :
- Tout d’abord, identifiez le modèle avec la valeur AIC la plus basse.
- Ensuite, ajustez ce modèle de régression aux données et calculez le Cp de Mallows et le R-carré ajusté du modèle pour quantifier dans quelle mesure il s’adapte réellement aux données.
Cette approche vous permet d’identifier le modèle le mieux adapté et de quantifier dans quelle mesure le modèle s’adapte réellement aux données.
Ressources additionnelles
Comment interpréter les valeurs AIC négatives
Comment calculer l’AIC en R
Comment calculer l’AIC en Python