Qu’est-ce que la variance expliquée ? (Définition & #038; Exemple)
La variance expliquée (parfois appelée « variation expliquée ») fait référence à la variance de la variable de réponse dans un modèle qui peut être expliquée par la ou les variables prédictives du modèle.
Plus la variance expliquée d’un modèle est élevée, plus le modèle est capable d’expliquer la variation des données.
La variance expliquée apparaît dans les résultats de deux modèles statistiques différents :
1. ANOVA : utilisée pour comparer les moyennes de trois groupes indépendants ou plus.
2. Régression : utilisée pour quantifier la relation entre une ou plusieurs variables prédictives et une variable de réponse.
Les exemples suivants montrent comment interpréter la variance résiduelle dans chacune de ces méthodes.
Remarque : L’opposé de la variance expliquée est appelé variance résiduelle .
Variance expliquée dans les modèles ANOVA
Chaque fois que nous ajustons un modèle ANOVA (« analyse de variance »), nous nous retrouvons avec un tableau ANOVA qui ressemble au suivant :
La variance expliquée se trouve dans la colonne SS (« somme des carrés ») pour la variation entre groupes .
Dans le modèle ANOVA ci-dessus, nous voyons que la variance expliquée est de 192,2.
Pour déterminer si cette variance expliquée est « élevée », nous pouvons calculer la somme moyenne des carrés pour au sein des groupes et la somme moyenne des carrés pour entre les groupes et trouver le rapport entre les deux, ce qui donne la valeur F globale dans le tableau ANOVA.
- F = MS entre / MS dans
- F = 96,1 / 40,76296
- F = 2,357
La valeur F dans le tableau ANOVA ci-dessus est de 2,357 et la valeur p correspondante est de 0,113848.
Puisque cette valeur p n’est pas inférieure à α = 0,05, nous ne disposons pas de preuves suffisantes pour rejeter l’hypothèse nulle de l’ANOVA .
Cela signifie que nous ne disposons pas de preuves suffisantes pour affirmer que la différence moyenne entre les groupes que nous comparons est significativement différente.
Cela nous indique que la variance expliquée dans le modèle ANOVA est faible par rapport à la variance inexpliquée.
Variance expliquée dans les modèles de régression
Dans un modèle de régression, la variance expliquée est résumée par R-carré , souvent écrit R 2 .
Cette valeur représente la proportion de la variance de la variable de réponse qui peut être expliquée par la ou les variables prédictives du modèle.
La valeur du R au carré peut aller de 0 à où :
- Une valeur de 0 indique que la variable de réponse ne peut pas du tout être expliquée par la ou les variables prédictives.
- Une valeur de 1 indique que la variable de réponse peut être parfaitement expliquée sans erreur par la ou les variables prédictives.
Lorsque nous ajustons un modèle de régression, nous obtenons généralement un résultat qui ressemble à ce qui suit :
Nous pouvons voir que la variance expliquée est de 168,5976 et la variance totale est de 174,5 .
En utilisant ces valeurs, nous pouvons calculer la valeur R au carré pour ce modèle de régression comme suit :
- R au carré : Régression SS / Total SS
- R au carré : 168,5976 / 174,5
- R au carré : 0,966
Puisque la valeur R au carré de ce modèle est proche de 1, cela nous indique que la variance expliquée dans le modèle est extrêmement élevée.
En d’autres termes, le modèle est capable de faire un bon travail en utilisant les variables prédictives pour expliquer la variation de la variable de réponse.
Connexes : Qu’est-ce qu’une bonne valeur R au carré ?