Comment calculer les mauves ’ Cp dans R



Dans l’analyse de régression, le Cp de Mallows est une métrique utilisée pour sélectionner le meilleur modèle de régression parmi plusieurs modèles potentiels.

Nous pouvons identifier le « meilleur » modèle de régression en identifiant le modèle avec la valeur Cp la plus basse proche de p +1, où p est le nombre de variables prédictives dans le modèle.

Le moyen le plus simple de calculer le Cp de Mallows dans R est d’utiliser la fonction ols_mallows_cp() du package olsrr .

L’exemple suivant montre comment utiliser cette fonction pour calculer le Cp de Mallows afin de sélectionner le meilleur modèle de régression parmi plusieurs modèles potentiels dans R.

Exemple : calcul du Cp de Mallows dans R

Supposons que nous souhaitions ajuster trois modèles de régression linéaire multiple différents en utilisant des variables de l’ensemble de données mtcars .

Le code suivant montre comment ajuster les modèles de régression suivants :

  • Variables prédictives dans le modèle complet : les 10 variables
  • Variables prédictives dans le modèle 1 : disp, hp, wt, qsec
  • Variables prédictives dans le modèle 2 : disp, qsec
  • Variables prédictives dans le modèle 3 : disp, wt

Le code suivant montre comment ajuster chacun de ces modèles de régression et utiliser la fonction ols_mallows_cp() pour calculer le Cp de Mallows de chaque modèle :

library(olsrr)

#fit full model
full_model <- lm(mpg ~ ., data = mtcars)

#fit three smaller models
model1 <- lm(mpg ~ disp + hp + wt + qsec, data = mtcars)
model2 <- lm(mpg ~ disp + qsec, data = mtcars)
model3 <- lm(mpg ~ disp + wt, data = mtcars)

#calculate Mallows' Cp for each model
ols_mallows_cp(model1, full_model)

[1] 4.430434

ols_mallows_cp(model2, full_model)

[1] 18.64082

ols_mallows_cp(model3, full_model)

[1] 9.122225

Voici comment interpréter le résultat :

  • Modèle 1 : p + 1 = 5, Cp de Mallows = 4,43
  • Modèle 2 : p + 1 = 3, Cp de Mallows = 18,64
  • Modèle 3 : p + 1 = 30, Cp de Mallows = 9,12

Nous pouvons voir que le modèle 1 a une valeur pour Cp de Mallows qui est la plus proche de p + 1, ce qui indique qu’il s’agit du meilleur modèle qui conduit au moins de biais parmi les trois modèles potentiels.

Notes sur le Cp des mauves

Voici quelques points à garder à l’esprit concernant le Cp de Mallows :

  • Si chaque modèle potentiel a une valeur élevée pour le Cp de Mallows, cela indique que certaines variables prédictives importantes sont probablement absentes de chaque modèle.
  • Si plusieurs modèles potentiels ont de faibles valeurs pour le Cp de Mallow, choisissez le modèle avec la valeur la plus faible comme meilleur modèle à utiliser.

Gardez à l’esprit que le Cp de Mallows n’est qu’un moyen parmi d’autres d’identifier le « meilleur » modèle de régression parmi plusieurs modèles potentiels.

Une autre mesure couramment utilisée est le R-carré ajusté, qui nous indique la proportion de variance dans la variable de réponse qui peut être expliquée par les variables prédictives du modèle, ajustée en fonction du nombre de variables prédictives utilisées.

Pour décider quel modèle de régression est le meilleur parmi une liste de plusieurs modèles différents, il est recommandé d’examiner à la fois le Cp de Mallows et le R carré ajusté.

Ressources additionnelles

Comment calculer le R-carré ajusté en R
Comment calculer l’AIC en R

Ajouter un commentaire

Votre adresse e-mail ne sera pas publiée. Les champs obligatoires sont indiqués avec *