Qu’est-ce qu’un test F partiel ?



Un test F partiel est utilisé pour déterminer s’il existe ou non une différence statistiquement significative entre un modèle de régression et une version imbriquée du même modèle.

Un modèle imbriqué est simplement un modèle qui contient un sous-ensemble de variables prédictives dans le modèle de régression global.

Par exemple, supposons que nous ayons le modèle de régression suivant avec quatre variables prédictives :

Y = β 0 + β 1 x 1 + β 2 x 2 + β 3 x 3 + β 4 x 4 + ε

Un exemple de modèle imbriqué serait le modèle suivant avec seulement deux des variables prédictives d’origine :

Y = β 0 + β 1 x 1 + β 2 x 2 + ε

Pour déterminer si ces deux modèles sont significativement différents, nous pouvons effectuer un test F partiel.

Test F partiel : les bases

Un test F partiel calcule la statistique de test F suivante :

F = ((RSS réduit – RSS complet )/p) / (RSS complet /nk)

où:

  • RSS réduit : La somme résiduelle des carrés du modèle réduit (c’est-à-dire « imbriqué »).
  • RSS full : La somme des carrés résiduelle du modèle complet.
  • p : nombre de prédicteurs supprimés du modèle complet.
  • n : le nombre total d’observations dans l’ensemble de données.
  • k : Le nombre de coefficients (y compris l’ordonnée à l’origine) dans le modèle complet.

Notez que la somme des carrés résiduelle sera toujours plus petite pour le modèle complet puisque l’ajout de prédicteurs entraînera toujours une certaine réduction de l’erreur.

Ainsi, un test F partiel teste essentiellement si le groupe de prédicteurs que vous avez supprimé du modèle complet est réellement utile et doit être inclus dans le modèle complet.

Ce test utilise les hypothèses nulles et alternatives suivantes :

H 0 : Tous les coefficients supprimés du modèle complet sont nuls.

H A : Au moins un des coefficients supprimés du modèle complet est non nul.

Si la valeur p correspondant à la statistique du test F est inférieure à un certain niveau de signification (par exemple 0,05), alors nous pouvons rejeter l’hypothèse nulle et conclure qu’au moins un des coefficients supprimés du modèle complet est significatif.

Test F partiel : un exemple

En pratique, nous utilisons les étapes suivantes pour effectuer un test F partiel :

1. Ajustez le modèle de régression complet et calculez RSS full .

2. Ajustez le modèle de régression imbriqué et calculez RSS réduit .

3. Effectuez une ANOVA pour comparer le modèle complet et réduit, qui produira la statistique de test F nécessaire pour comparer les modèles.

Par exemple, le code suivant montre comment ajuster les deux modèles de régression suivants dans R à l’aide des données de l’ensemble de données mtcars intégré :

Modèle complet : mpg = β 0 + β 1 disp + β 2 carb + β 3 ch + β 4 cyl

Modèle réduit : mpg = β 0 + β 1 disp + β 2 carb

#fit full model
model_full <- lm(mpg ~ disp + carb + hp + cyl, data = mtcars)

#fit reduced model
model_reduced <- lm(mpg ~ disp + carb, data = mtcars)

#perform ANOVA to test for differences in models
anova(model_reduced, model_full)

Analysis of Variance Table

Model 1: mpg ~ disp + carb
Model 2: mpg ~ disp + carb + hp + cyl
  Res.Df    RSS Df Sum of Sq      F Pr(>F)
1     29 254.82                           
2     27 238.71  2    16.113 0.9113  0.414

À partir du résultat, nous pouvons voir que la statistique de test F de l’ANOVA est de 0,9113 et la valeur p correspondante est de 0,414 .

Puisque cette valeur p n’est pas inférieure à 0,05, nous ne parviendrons pas à rejeter l’hypothèse nulle. Cela signifie que nous n’avons pas suffisamment de preuves pour affirmer que l’une ou l’autre des variables prédictives hp ou cyl est statistiquement significative.

En d’autres termes, l’ajout de hp et cyl au modèle de régression n’améliore pas significativement l’ajustement du modèle.

Ajouter un commentaire

Votre adresse e-mail ne sera pas publiée. Les champs obligatoires sont indiqués avec *