Qu’est-ce que l’hypothèse d’une variance égale dans les statistiques ?
De nombreux tests statistiques font l’ hypothèse d’une variance égale . Si cette hypothèse n’est pas respectée, les résultats des tests deviennent peu fiables.
Les tests et procédures statistiques les plus courants qui font cette hypothèse de variance égale comprennent :
1. ANOVA
2. tests t
3. Régression linéaire
Ce didacticiel explique l’hypothèse formulée pour chaque test, comment déterminer si cette hypothèse est satisfaite et que faire si elle n’est pas respectée.
Hypothèse d’égalité de variance dans l’ANOVA
Une ANOVA (« Analyse de Variance ») est utilisée pour déterminer s’il existe ou non une différence significative entre les moyennes de trois groupes indépendants ou plus.
Voici un exemple de cas où nous pourrions utiliser une ANOVA :
Supposons que nous recrutions 90 personnes pour participer à une expérience de perte de poids. Nous assignons au hasard 30 personnes à utiliser le programme A, B ou C pendant un mois.
Pour voir si le programme a un impact sur la perte de poids, nous pouvons réaliser une ANOVA unidirectionnelle .
Une ANOVA suppose que chacun des groupes a une variance égale. Il existe deux manières de tester si cette hypothèse est vérifiée :
1. Créez des boîtes à moustaches.
Les boxplots offrent un moyen visuel de vérifier l’hypothèse d’égalité des variances.
La variance de la perte de poids dans chaque groupe peut être observée par la longueur de chaque boîte à moustaches. Plus la boîte est longue, plus la variance est élevée. Par exemple, nous pouvons voir que la variance est un peu plus élevée pour les participants au programme C par rapport au programme A et au programme B.
2. Effectuez le test de Bartlett.
Le test de Bartlett teste l’hypothèse nulle selon laquelle les échantillons ont des variances égales par rapport à l’hypothèse alternative selon laquelle les échantillons n’ont pas des variances égales.
Si la valeur p du test est inférieure à un certain niveau de signification (comme 0,05), alors nous avons des preuves indiquant que les échantillons n’ont pas tous des variances égales.
Que se passe-t-il si l’hypothèse d’égalité de variance n’est pas respectée ?
En général, les ANOVA sont considérées comme assez robustes contre les violations de l’hypothèse des variances égales tant que chaque groupe a la même taille d’échantillon.
Cependant, si les tailles d’échantillon ne sont pas les mêmes et que cette hypothèse est gravement violée, vous pouvez à la place exécuter un test de Kruskal-Wallis , qui est la version non paramétrique de l’ANOVA unidirectionnelle.
Hypothèse de variance égale dans les tests t
Un test t à deux échantillons est utilisé pour tester si les moyennes de deux populations sont égales ou non.
Le test fait l’hypothèse que les variances sont égales entre les deux groupes. Il existe deux manières de tester si cette hypothèse est vérifiée :
1. Utilisez la règle empirique du ratio.
En règle générale, si le rapport entre la plus grande variance et la plus petite variance est inférieur à 4, nous pouvons alors supposer que les variances sont approximativement égales et utiliser le test t à deux échantillons.
Par exemple, supposons que l’échantillon 1 ait une variance de 24,5 et que l’échantillon 2 ait une variance de 15,2. Le rapport entre la plus grande variance de l’échantillon et la plus petite variance de l’échantillon serait calculé comme suit : 24,5 / 15,2 = 1,61.
Ce rapport étant inférieur à 4, on pourrait supposer que les écarts entre les deux groupes sont à peu près égaux.
2. Effectuez un test F.
Le test F teste l’hypothèse nulle selon laquelle les échantillons ont des variances égales par rapport à l’hypothèse alternative selon laquelle les échantillons n’ont pas des variances égales.
Si la valeur p du test est inférieure à un certain niveau de signification (comme 0,05), alors nous avons des preuves indiquant que les échantillons n’ont pas tous des variances égales.
Que se passe-t-il si l’hypothèse d’égalité de variance n’est pas respectée ?
Si cette hypothèse n’est pas respectée, nous pouvons alors effectuer le test t de Welch , qui est une version non paramétrique du test t à deux échantillons et ne suppose pas que les deux échantillons ont des variances égales.
Hypothèse de variance égale dans la régression linéaire
La régression linéaire est utilisée pour quantifier la relation entre une ou plusieurs variables prédictives et une variable de réponse.
La régression linéaire suppose que les résidus ont une variance constante à chaque niveau de la ou des variables prédictives. C’est ce qu’on appelle l’homoscédasticité . Lorsque ce n’est pas le cas, les résidus souffrent d’ hétéroscédasticité et les résultats de l’analyse de régression deviennent peu fiables.
La manière la plus courante de déterminer si cette hypothèse est satisfaite consiste à créer un graphique des valeurs résiduelles par rapport aux valeurs ajustées. Si les résidus de ce graphique semblent être dispersés de manière aléatoire autour de zéro, alors l’hypothèse d’homoscédasticité est probablement remplie.
Cependant, s’il existe une tendance systématique dans les résidus, telle que la forme en « cône » dans le graphique suivant, alors l’hétéroscédasticité pose problème :
Que se passe-t-il si l’hypothèse d’égalité de variance n’est pas respectée ?
Si cette hypothèse n’est pas respectée, la manière la plus courante de résoudre le problème consiste à transformer la variable de réponse en utilisant l’une des trois transformations :
1. Transformation du journal : transformez la variable de réponse de y en log(y) .
2. Transformation racine carrée : Transformez la variable de réponse de y en √ y .
3. Transformation de racine cubique : transformez la variable de réponse de y en y 1/3 .
En effectuant ces transformations, le problème de l’hétéroscédasticité disparaît généralement.
Une autre façon de corriger l’hétéroscédasticité consiste à utiliser la régression des moindres carrés pondérés . Ce type de régression attribue un poids à chaque point de données en fonction de la variance de sa valeur ajustée.
Essentiellement, cela donne de faibles poids aux points de données qui ont des variances plus élevées, ce qui réduit leurs carrés résiduels. Lorsque les pondérations appropriées sont utilisées, cela peut éliminer le problème de l’hétéroscédasticité.
Ressources additionnelles
Les trois hypothèses formulées dans une ANOVA
Les quatre hypothèses formulées dans un test T
Les quatre hypothèses de la régression linéaire