Comment calculer la somme des carrés en ANOVA (avec exemple)
En statistiques, une ANOVA unidirectionnelle est utilisée pour comparer les moyennes de trois groupes indépendants ou plus afin de déterminer s’il existe une différence statistiquement significative entre les moyennes de la population correspondante.
Chaque fois que vous effectuez une ANOVA unidirectionnelle, vous calculerez toujours trois valeurs de somme des carrés :
1. Régression de la somme des carrés (SSR)
- Il s’agit de la somme des carrés des différences entre la moyenne de chaque groupe et la moyenne générale .
2. Erreur de somme des carrés (SSE)
- Il s’agit de la somme des carrés des différences entre chaque observation individuelle et la moyenne de groupe de cette observation.
3. Somme des carrés totaux (SST)
- Il s’agit de la somme des carrés des différences entre chaque observation individuelle et la moyenne générale.
Chacune de ces trois valeurs est placée dans le tableau ANOVA final, que nous utilisons pour déterminer s’il existe ou non une différence statistiquement significative entre les moyennes des groupes.
L’exemple suivant montre comment calculer chacune de ces valeurs de somme des carrés pour une ANOVA unidirectionnelle dans la pratique.
Exemple : Comment calculer la somme des carrés en ANOVA
Supposons que nous voulions savoir si trois programmes de préparation aux examens différents conduisent ou non à des notes moyennes différentes à un examen donné. Pour tester cela, nous recrutons 30 étudiants pour participer à une étude et les répartissons en trois groupes.
Les étudiants de chaque groupe sont assignés au hasard à utiliser l’un des trois programmes de préparation aux examens pendant les trois semaines suivantes pour se préparer à un examen. A la fin des trois semaines, tous les étudiants passent le même examen.
Les résultats des examens pour chaque groupe sont indiqués ci-dessous :
Les étapes suivantes montrent comment calculer la somme des valeurs des carrés pour cette ANOVA unidirectionnelle.
Étape 1 : Calculez la moyenne du groupe et la moyenne générale.
Tout d’abord, nous calculerons la moyenne des trois groupes ainsi que la moyenne générale (ou « globale ») :
Étape 2 : Calculez le SSR.
Ensuite, nous calculerons la régression de la somme des carrés (SSR) en utilisant la formule suivante :
nΣ(X j – X ..) 2
où:
- n : la taille de l’échantillon du groupe j
- Σ : un symbole grec qui signifie « somme »
- X j : la moyenne du groupe j
- X .. : la moyenne globale
Dans notre exemple, nous calculons que SSR = 10(83,4-85,8) 2 + 10(89,3-85,8) 2 + 10(84,7-85,8) 2 = 192,2
Étape 3 : Calculez le SSE.
Ensuite, nous calculerons l’erreur de la somme des carrés (SSE) en utilisant la formule suivante :
Σ(X ij – X j ) 2
où:
- Σ : un symbole grec qui signifie « somme »
- X ij : la ième observation du groupe j
- X j : la moyenne du groupe j
Dans notre exemple, nous calculons le SSE comme suit :
Groupe 1 : (85-83,4) 2 + (86-83,4) 2 + (88-83.4) 2 + (75-83.4) 2 + (78-83.4) 2 + (94-83.4) 2 + (98-83.4) 2 + (79-83.4) 2 + (71-83.4) 2 + (80-83,4) 2 = 640,4
Groupe 2 : (91-89,3) 2 + (92-89,3) 2 + (93-89.3) 2 + (85-89,3) 2 + (87-89.3) 2 + (84-89.3) 2 + (82-89.3) 2 + (88-89.3) 2 + (95-89.3) 2 + (96-89,3) 2 = 208,1
Groupe 3 : (79-84,7) 2 + (78-84,7) 2 + (88-84.7) 2 + (94-84.7) 2 + (92-84.7) 2 + (85-84,7) 2 + (83-84.7) 2 + (85-84,7) 2 + (82-84.7) 2 + (81-84,7) 2 = 252,1
ESS : 640,4 + 208,1 + 252,1 = 1 100,6
Étape 4 : Calculez la SST.
Ensuite, nous calculerons la somme des carrés totale (SST) en utilisant la formule suivante :
SST = SSR + SSE
Dans notre exemple, SST = 192,2 + 1100,6 = 1292,8
Une fois que nous avons calculé les valeurs de SSR, SSE et SST, chacune de ces valeurs sera finalement placée dans le tableau ANOVA :
Source | Somme des carrés (SS) | df | Carrés moyens (MS) | Valeur F | valeur p |
---|---|---|---|---|---|
Régression | 192.2 | 2 | 96.1 | 2.358 | 0,1138 |
Erreur | 1100,6 | 27 | 40,8 | ||
Total | 1292.8 | 29 |
Voici comment nous avons calculé les différents nombres du tableau :
- régression df : k-1 = 3-1 = 2
- erreur df : nk = 30-3 = 27
- df total : n-1 = 30-1 = 29
- Traitement SEP : traitement SST/df = 192,2 / 2 = 96,1
- Erreur MS : erreur SSE / df = 1100,6 / 27 = 40,8
- Valeur F : traitement MS / erreur MS = 96,1 / 40,8 = 2,358
- p-value : p-value qui correspond à la valeur F.
Remarque : n = nombre total d’observations, k = nombre de groupes
Consultez ce didacticiel pour savoir comment interpréter la valeur F et la valeur p dans le tableau ANOVA.