Analyse de variance (ANOVA)

Cet article explique ce qu’est l’analyse de variance, également connue sous le nom d’ANOVA, en statistique. Ainsi, vous découvrirez comment faire une analyse de variance, en quoi consiste le tableau ANOVA et un exercice résolu étape par étape. De plus, il montre quelles sont les hypothèses préalables qui doivent être respectées pour effectuer une analyse de variance et, enfin, quels sont les avantages et les inconvénients de l’analyse ANOVA.

Qu’est-ce que l’analyse de variance (ANOVA) ?

En statistique, l’analyse de variance , également appelée ANOVA (Analysis of Variance), est une technique qui permet de comparer les variances entre les moyennes de différents échantillons.

L’analyse de variance (ANOVA) est utilisée pour analyser s’il existe une différence entre les moyennes de plus de deux populations. Ainsi, l’analyse de variance nous permet de déterminer si les moyennes de population de deux groupes ou plus sont différentes en analysant la variabilité entre les moyennes des échantillons.

L’hypothèse nulle de l’analyse de variance est donc que les moyennes de tous les groupes analysés sont égales. Alors que l’hypothèse alternative soutient qu’au moins une des moyennes est différente.

\begin{cases}H_0: \mu_1=\mu_2=\ldots=\mu_k=\mu\\[2ex]H_1: \exists \mu_i\neq \mu \quad i=1,2,\ldots, k\end{cases}

Ainsi, l’analyse de variance est particulièrement utile pour comparer les moyennes de plus de deux groupes, car avec ce type d’analyse, vous pouvez étudier les moyennes de tous les groupes en même temps, au lieu de comparer les moyennes par paires. Nous verrons ci-dessous quels sont les avantages et les inconvénients de l’analyse de variance.

Tableau ANOVA

L’analyse de variance est résumée dans un tableau appelé tableau ANOVA dont les formules sont les suivantes :

formules d'analyse de variance ou ANOVA

Où:

  • n_i est la taille de l’échantillon i.
  • N est le nombre total d’observations.
  • k est le nombre de groupes différents dans l’analyse de variance.
  • y_{ij} est la valeur j du groupe i.
  • \overline{y}_{i} est la moyenne du groupe i.
  • \overline{y} C’est la moyenne de toutes les données analysées.

Exemple d’analyse de variance (ANOVA)

Pour finir de comprendre le concept d’ANOVA, voyons comment faire une analyse de variance en résolvant un exemple étape par étape.

  • Une étude statistique est réalisée pour comparer les scores obtenus par quatre étudiants dans trois matières différentes (A, B et C). Le tableau suivant détaille les scores obtenus par chaque élève à un test dont le score maximum est de 20. Effectuez une analyse de variance pour comparer les notes obtenues par chaque élève dans chaque matière.

L’hypothèse nulle de cette analyse de variance est que les moyennes des scores des trois sujets sont égales. En revanche, l’hypothèse nulle est que certaines de ces moyennes sont différentes.

\begin{cases}H_0: \mu_A=\mu_B=\mu_C=\mu\\[2ex]H_1: \exists \mu_i\neq \mu \quad i=A, B, C\end{cases}

Pour réaliser l’analyse de variance, la première chose à faire est de calculer la moyenne de chaque sujet et la moyenne totale des données :

\overline{y}_A=\cfrac{14+12+14+10}{4}=12,5

\overline{y}_B=\cfrac{13+14+10+14}{4}=12,75

\overline{y}_C=\cfrac{19+17+16+19}{4}=17,75

\overline{y}=\cfrac{14+12+14+10+13+14+10+14+19+17+16+19}{12}=14,33

Une fois que nous connaissons la valeur des moyennes, nous calculons les sommes des carrés à l’aide des formules d’analyse de variance (ANOVA) vues ci-dessus :

\begin{aligned}\displaystyle SS_F&=\sum_{i=1}^k n_i(\overline{y}_i-\overline{y})^2\\[2ex] SS_F&= 4\cdot (12,5-14,33)^2+4\cdot (12,75-14,33)^2+4\cdot (17,75-14,33)^2\\[2ex] SS_F&=70,17\end{aligned}

\begin{aligned}\displaystyle SS_E=&\sum_{i=1}^k\sum_{j=1}^{n_i} (y_{ij}-\overline{y}_i)^2\\[2ex] \displaystyle SS_E=\ &(14-12,5)^2+(12-12,5)^2+(14-12,5)^2+(10-12,5)^2+\\&+(13-12,75)^2+(14-12,75)^2+(10-12,75)^2+(14-12,75)^2+\\&+(19-17,75)^2+(17-17,75)^2+(16-17,75)^2+(19-17,75)^2\\[2ex] SS_E=\ &28,50\end{aligned}

\begin{aligned}\displaystyle SS_T=&\sum_{i=1}^k\sum_{j=1}^{n_i} (y_{ij}-\overline{y})^2\\[2ex] \displaystyle SS_T= \ &(14-14,33)^2+(12-14,33)^2+(14-14,33)^2+(10-14,33)^2+\\&+(13-14,33)^2+(14-14,33)^2+(10-14,33)^2+(14-14,33)^2+\\&+(19-14,33)^2+(17-14,33)^2+(16-14,33)^2+(19-14,33)^2\\[2ex] SS_T= \ &98,67\end{aligned}

Ensuite on détermine les degrés de liberté du facteur, l’erreur et le total :

GL_F=k-1=3-1=2

GL_E=N-k=12-3=9

GL_F=N-1=12-1=11

Nous calculons maintenant les erreurs quadratiques moyennes en divisant les sommes des carrés du facteur et de l’erreur par leurs degrés de liberté respectifs :

MSE_F=\cfrac{SS_F}{GL_F}=\cfrac{70,17}{2}=35,08

MSE_R=\cfrac{SS_R}{GL_R}=\cfrac{28,50}{9}=3,17

Et enfin, on calcule la valeur de la statistique F en divisant les deux erreurs calculées à l’étape précédente :

F=\cfrac{MSE_F}{MSE_R}=\cfrac{35,09}{3,17}=11,08

En bref, le tableau ANOVA pour les données d’exemple ressemblerait à ceci :

exemple d'analyse de variance (ANOVA)

Une fois toutes les valeurs du tableau ANOVA calculées, il ne reste plus qu’à interpréter les résultats obtenus. Pour ce faire, nous devons trouver la probabilité d’obtenir une valeur supérieure à la statistique F dans une distribution F de Snedecor avec les degrés de liberté correspondants, c’est-à-dire que nous devons déterminer la valeur p du test :

P[F>11,08]=0,004

Par conséquent, si l’on prend un niveau de signification α=0,05 (le plus courant), nous devons rejeter l’hypothèse nulle et accepter l’hypothèse alternative, puisque la valeur p du test est inférieure au niveau de signification. Cela signifie qu’au moins certains des moyens des groupes étudiés sont différents des autres.

0,004 < 0,05 \ \color{orange}\bm{\longrightarrow}\color{black}\ \text{Se rechaza } H_0

Il convient de noter qu’il existe actuellement plusieurs programmes informatiques permettant de réaliser une analyse de variance en quelques secondes seulement. Cependant, il est également important de connaître la théorie derrière les calculs.

Hypothèses de l’analyse de variance (ANOVA)

Afin d’effectuer une analyse de variance (ANOVA), les conditions suivantes doivent être remplies :

  • Indépendance : les valeurs observées sont indépendantes les unes des autres. Une façon de garantir l’indépendance des observations consiste à ajouter du caractère aléatoire au processus d’échantillonnage.
  • Homoscédasticité : il doit y avoir une homogénéité dans les variances, c’est-à-dire que la variabilité des résidus est constante.
  • Normalité : les résidus doivent être distribués normalement, ou en d’autres termes, ils doivent suivre une distribution normale.
  • Continuité : La variable dépendante doit être continue.

Types d’analyse de variance (ANOVA)

Il existe trois types d’analyse de variance (ANOVA) :

  • Analyse de la variance d’un facteur (ANOVA unidirectionnelle) : dans l’analyse de la variance, il n’y a qu’un seul facteur, c’est-à-dire qu’il n’y a qu’une seule variable indépendante.
  • Analyse de variance à deux facteurs (ANOVA bidirectionnelle) : l’analyse de variance comporte deux facteurs, donc deux variables indépendantes et l’interaction entre elles sont analysées.
  • Analyse de variance multivariée (MANOVA) : Dans l’analyse de variance, il y a plus d’une variable dépendante. Le but est de déterminer si les variables indépendantes changent de valeur lorsque les variables dépendantes varient.

Avantages et inconvénients de l’analyse de variance (ANOVA)

Enfin, nous verrons quand il nous convient d’utiliser l’analyse de variance et, aussi, quelles sont les limites de ce type d’analyse statistique.

Le principal avantage de l’analyse de variance (ANOVA) est qu’elle permet de comparer plus de deux groupes en même temps. Contrairement au test t , où vous ne pouvez analyser que la moyenne d’un ou deux échantillons, l’analyse de variance est utilisée pour déterminer si plusieurs populations ont ou non la même moyenne.

Cependant, l’analyse de variance ne nous dit pas quel groupe d’étude a une moyenne différente, elle nous permet seulement de savoir s’il existe des moyennes significativement différentes ou si toutes les moyennes sont similaires.

De même, un autre inconvénient de l’analyse de variance est que quatre hypothèses précédentes (voir ci-dessus) doivent être remplies pour effectuer l’analyse ANOVA, sinon les conclusions tirées pourraient être fausses. Par conséquent, il convient de toujours vérifier que l’ensemble de données statistiques répond à ces quatre exigences.

Ajouter un commentaire

Votre adresse e-mail ne sera pas publiée. Les champs obligatoires sont indiqués avec *