Avantages & Inconvénients de l’utilisation de la moyenne dans les statistiques
La moyenne d’un ensemble de données représente la valeur moyenne de l’ensemble de données.
Il est calculé comme suit :
Moyenne = Σx i / n
où:
- Σ : Un symbole qui signifie « somme »
- x i : La i ème observation dans un ensemble de données
- n : le nombre total d’observations dans l’ensemble de données
Il y a deux avantages principaux à utiliser la moyenne pour décrire le « centre » ou la « moyenne » d’un ensemble de données :
Avantage n°1 : La moyenne utilise toutes les observations d’un ensemble de données dans son calcul. En statistiques, c’est généralement une bonne chose car on dit que l’on utilise toutes les informations disponibles dans un ensemble de données.
Avantage n°2 : La moyenne est facile à calculer et à interpréter. La moyenne est la somme de toutes les observations divisée par le nombre total d’observations. C’est à la fois facile à calculer (même manuellement) et facile à interpréter.
Cependant, l’utilisation de la moyenne pour résumer un ensemble de données présente deux inconvénients potentiels :
Inconvénient n°1 : la moyenne est affectée par les valeurs aberrantes. Si un ensemble de données présente une valeur aberrante extrême, cela affecte la moyenne et en fait une mesure peu fiable du centre d’un ensemble de données.
Inconvénient n°2 : la moyenne peut être trompeuse avec des ensembles de données asymétriques. Lorsqu’un ensemble de données est incliné vers la gauche ou la droite , la moyenne peut être une manière trompeuse de mesurer le centre d’un ensemble de données.
Les exemples suivants illustrent ces avantages et inconvénients dans la pratique.
Exemple 1 : les avantages de l’utilisation de la moyenne
Supposons que nous ayons l’histogramme suivant qui montre les salaires des habitants d’une ville particulière :
Étant donné que cette distribution est généralement symétrique (si vous la divisez au milieu, chaque moitié semblerait à peu près égale) et qu’il n’y a pas de valeurs aberrantes, la moyenne est un moyen utile pour décrire le centre de cet ensemble de données.
La moyenne s’avère être de 63 000 $, qui se situe approximativement au centre de la distribution :
Dans cet exemple particulier, nous avons pu utiliser les deux avantages de la moyenne :
Avantage n°1 : La moyenne utilise toutes les observations d’un ensemble de données dans son calcul.
Comme la distribution était essentiellement symétrique et qu’il n’y avait pas de valeurs aberrantes extrêmes, nous avons pu utiliser tous les salaires disponibles pour calculer la moyenne, ce qui nous a donné une bonne idée du salaire « moyen » ou « typique » dans cette ville particulière.
Avantage n°2 : La moyenne est facile à calculer et à interpréter. Il est facile de comprendre que le salaire moyen de 63 000 $ représente le salaire « moyen » d’un individu dans cette ville.
Même si certains individus gagnent beaucoup plus que cela et d’autres beaucoup moins, cette valeur moyenne nous donne une bonne idée d’un salaire « typique » dans cette ville.
Exemple 2 : les inconvénients de l’utilisation de la moyenne
Supposons que nous ayons une répartition des salaires très asymétrique et que nous décidions de calculer à la fois le salaire moyen et médian :
Les valeurs plus élevées à l’extrémité de la distribution éloignent la moyenne du centre et vers la longue queue.
Dans cet exemple, la moyenne nous indique qu’un individu typique gagne environ 47 000 $ par an, tandis que la médiane nous indique que l’individu typique ne gagne qu’environ 32 000 $ par an, ce qui est beaucoup plus représentatif de l’individu type.
Dans cet exemple, la moyenne résume mal la valeur « typique » ou « moyenne » dans cette distribution puisque la distribution est asymétrique.
Ou supposons que nous ayons une autre distribution contenant des informations sur la superficie en pieds carrés des maisons dans une certaine rue et que nous décidions de calculer à la fois la moyenne et la médiane de l’ensemble de données :
La moyenne est influencée par quelques maisons extrêmement grandes, ce qui lui fait prendre une valeur beaucoup plus élevée.
Cela rend la valeur moyenne de la superficie en pieds carrés trompeuse et donne une mauvaise mesure de la superficie en pieds carrés « typique » d’une maison de cette rue.
Ressources additionnelles
Les didacticiels suivants fournissent des informations supplémentaires sur la moyenne et la médiane dans les statistiques :
Comment les valeurs aberrantes affectent-elles la moyenne ?
Comment estimer la moyenne et la médiane de n’importe quel histogramme
Comment trouver la moyenne et la médiane des parcelles à tiges et à feuilles