Qu’est-ce qu’un modèle imbriqué ? (Définition & #038; Exemple)



Un modèle imbriqué est simplement un modèle de régression qui contient un sous-ensemble de variables prédictives dans un autre modèle de régression.

Par exemple, supposons que nous ayons le modèle de régression suivant (appelons-le modèle A) qui prédit le nombre de points marqués par un joueur de basket-ball sur la base de quatre variables prédictives :

Points = β 0 + β 1 (minutes) + β 2 (hauteur) + β 3 (position) + β 4 (tirs) + ε

Un exemple de modèle imbriqué (appelons-le modèle B) serait le modèle suivant avec seulement deux des variables prédictives du modèle A :

Points = β 0 + β 1 (minutes) + β 2 (hauteur) + ε

Nous dirions que le modèle B est imbriqué dans le modèle A car le modèle B contient un sous-ensemble des variables prédictives du modèle A.

Cependant, considérons si nous avions un autre modèle (appelons-le modèle C) contenant trois variables prédictives :

Points = β 0 + β 1 (minutes) + β 2 (hauteur) + β 3 (lancers francs tentés)

Nous ne dirions pas que le modèle C est imbriqué dans le modèle A car chaque modèle contient des variables prédictives que l’autre modèle ne contient pas.

L’importance des modèles imbriqués

Nous utilisons souvent des modèles imbriqués dans la pratique lorsque nous voulons savoir si un modèle avec un ensemble complet de variables prédictives peut mieux s’adapter à un ensemble de données qu’un modèle avec un sous-ensemble de ces variables prédictives.

Par exemple, dans le scénario ci-dessus, nous pourrions adapter un modèle complet utilisant les minutes jouées, la hauteur, la position et les tirs tentés pour prédire le nombre de points marqués par les basketteurs.

Cependant, nous pourrions soupçonner que la position et les tirs tentés ne permettent pas de prédire très bien les points marqués.

Ainsi, nous pourrions adapter un modèle imbriqué qui utilise uniquement les minutes jouées et la hauteur pour prédire les points marqués.

Nous pouvons ensuite comparer les deux modèles pour déterminer s’il existe une différence statistiquement significative.

S’il n’y a pas de différence significative entre les modèles, nous pouvons supprimer la position et les tirs tentés comme variables prédictives car ils n’améliorent pas significativement le modèle.

Comment analyser des modèles imbriqués

Pour déterminer si un modèle imbriqué est significativement différent d’un modèle « complet », nous effectuons généralement un test du rapport de vraisemblance qui utilise les hypothèses nulles et alternatives suivantes :

H 0 : Le modèle complet et le modèle imbriqué s’ajustent aussi bien aux données. Ainsi, vous devez utiliser le modèle imbriqué .

H A : Le modèle complet s’adapte nettement mieux aux données que le modèle imbriqué. Vous devez donc utiliser le modèle complet .

Un test de rapport de vraisemblance produit une statistique de test du Chi carré et une valeur p correspondante.

Si la valeur p du test est inférieure à un certain niveau de signification (par exemple 0,05), nous pouvons alors rejeter l’hypothèse nulle et conclure que le modèle complet offre un ajustement nettement meilleur.

Les didacticiels suivants expliquent comment effectuer un test de rapport de vraisemblance à l’aide de R et Python :

Ajouter un commentaire

Votre adresse e-mail ne sera pas publiée. Les champs obligatoires sont indiqués avec *