Une explication simple sur la façon d’interpréter la variance
En statistiques, nous souhaitons souvent comprendre à quel point les valeurs sont « réparties » dans un ensemble de données. Pour mesurer cela, nous utilisons souvent les mesures de dispersion suivantes :
- La plage : la différence entre la plus grande et la plus petite valeur d’un ensemble de données.
- L’intervalle interquartile : la différence entre le premier quartile et le troisième quartile d’un ensemble de données (les quartiles sont simplement des valeurs qui divisent un ensemble de données en quatre parties égales).
- L’écart type : un moyen de mesurer la distance typique entre les valeurs et la moyenne.
- La variance : l’écart type au carré.
Parmi ces quatre mesures, la variance tend à être celle qui est la plus difficile à comprendre intuitivement. Cet article vise à fournir une explication simple de la variance.
Comprendre l’écart type
Avant de pouvoir comprendre la variance, nous devons d’abord comprendre l’écart type , généralement noté σ .
La formule pour calculer l’écart type est la suivante :
σ = √(Σ (x je – μ) 2 / N)
où μ est la moyenne de la population, x i est le i ème élément de la population, N est la taille de la population et Σ est juste un symbole fantaisiste qui signifie « somme ».
En pratique, vous aurez rarement besoin de calculer l’écart type à la main ; à la place, vous pouvez utiliser un logiciel statistique ou une calculatrice.
À son niveau le plus élémentaire, l’écart type nous indique la répartition des valeurs des données dans un ensemble de données. Pour illustrer cela, considérons les trois ensembles de données suivants ainsi que leurs écarts types correspondants :
[5, 5, 5] écart type = 0 (pas de spread du tout)
[3, 5, 7] écart type = 1,63 (certains écarts)
[1, 5, 99] écart type = 45,28 (beaucoup de spread)
Le terme « écart type » peut être compris en regardant les deux mots qui le composent :
- « écart » – cela fait référence à la distance par rapport à la moyenne.
- « standard » – cela fait référence à la distance « standard » ou « typique » entre une valeur et la moyenne.
Une fois que vous comprenez l’écart type, il est beaucoup plus facile de comprendre la variance.
Comprendre l’écart
La variance, généralement notée σ 2 , est simplement l’écart type au carré. La formule pour trouver la variance d’un ensemble de données est la suivante :
σ 2 = Σ (x je – μ) 2 / N
où μ est la moyenne de la population, x i est le i ème élément de la population, N est la taille de la population et Σ est juste un symbole fantaisiste qui signifie « somme ».
Ainsi, si l’écart type d’un ensemble de données est de 8, alors la variation serait de 8 2 = 64.
Ou, si l’écart type d’un ensemble de données est de 10, alors la variation serait de 10 2 = 100.
Ou, si l’écart type d’un ensemble de données est de 3,7, alors la variation serait de 3,7 2 = 13,69.
Plus les valeurs sont dispersées dans un ensemble de données, plus la variance est élevée. Pour illustrer cela, considérons les trois ensembles de données suivants ainsi que leurs variances correspondantes :
[5, 5, 5] variance = 0 (pas de spread du tout)
[3, 5, 7] variance = 2,67 (certains écarts)
[1, 5, 99] variance = 2 050,67 (beaucoup de spread)
Quand utiliseriez-vous la variance au lieu de l’écart type ?
Après avoir lu les explications ci-dessus sur l’écart type et la variance, vous vous demandez peut-être quand vous utiliseriez un jour la variance au lieu de l’écart type pour décrire un ensemble de données.
Après tout, l’écart type nous indique la distance moyenne entre une valeur et la moyenne, tandis que la variance nous indique le carré de cette valeur. Il semblerait que l’écart type soit beaucoup plus facile à comprendre et à interpréter.
En réalité, vous utiliserez presque toujours l’écart type pour décrire la répartition des valeurs dans un ensemble de données.
Cependant, la variance peut être utile lorsque vous utilisez une technique telle que l’ANOVA ou la régression et que vous essayez d’expliquer la variance totale d’un modèle en raison de facteurs spécifiques.
Par exemple, vous souhaiterez peut-être comprendre dans quelle mesure la variance des résultats aux tests peut être expliquée par le QI et quelle quantité de variance peut être expliquée par les heures étudiées.
Si 36 % de la variation est due au QI et 64 % aux heures d’études, c’est facile à comprendre. Mais si l’on utilise les écarts types de 6 et 8, c’est beaucoup moins intuitif et n’a pas beaucoup de sens dans le contexte du problème.
Un autre cas dans lequel il peut être préférable d’utiliser la variance plutôt que l’écart type est celui où vous effectuez un travail statistique théorique.
Dans ce cas, il est beaucoup plus facile d’utiliser la variance lors des calculs puisque vous n’avez pas besoin d’utiliser un signe de racine carrée.
Ressources additionnelles
Les didacticiels suivants fournissent des informations supplémentaires sur la variance :
Variance de l’échantillon et variance de la population : quelle est la différence ?
Comment calculer la variance de l’échantillon et de la population dans Excel