Comment les valeurs aberrantes affectent-elles la moyenne ?



En statistiques, la moyenne d’un ensemble de données est la valeur moyenne. C’est utile à savoir car cela nous donne une idée de l’endroit où se trouve le « centre » de l’ensemble de données. Il est calculé à l’aide de la formule simple :

moyenne = (somme des observations) / (nombre d’observations)

Par exemple, supposons que nous ayons l’ensemble de données suivant :

[1, 4, 5, 6, 7]

La moyenne de l’ensemble de données est (1+4+5+6+7) / (5) = 4,6

Mais même si la moyenne est utile et facile à calculer, elle présente un inconvénient : elle peut être affectée par des valeurs aberrantes . En particulier, plus l’ensemble de données est petit, plus une valeur aberrante pourrait affecter la moyenne.

Pour illustrer cela, considérons l’exemple classique suivant :

Dix hommes sont assis dans un bar. Le revenu moyen des dix hommes est de 50 000 dollars. Soudain, un homme sort et Bill Gates entre. Aujourd’hui, le revenu moyen des dix hommes du bar est de 40 millions de dollars.

Cet exemple montre comment une valeur aberrante (Bill Gates) pourrait affecter considérablement la moyenne.

Petites et grandes valeurs aberrantes

Une valeur aberrante peut affecter la moyenne en étant inhabituellement petite ou inhabituellement grande. Dans l’exemple précédent, Bill Gates disposait d’un revenu inhabituellement élevé, ce qui rendait la moyenne trompeuse.

Cependant, une valeur inhabituellement faible peut également affecter la moyenne. Pour illustrer cela, considérons l’exemple suivant :

Dix étudiants passent un examen et obtiennent les notes suivantes :

[0, 88, 90, 92, 94, 95, 95, 96, 97, 99]

Le score moyen est de 84,6 .

Cependant, si nous supprimons le score « 0 » de l’ensemble de données, le score moyen devient alors 94 .

Le score inhabituellement bas d’un élève fait baisser la moyenne de l’ensemble des données.

Taille de l’échantillon et valeurs aberrantes

Plus la taille de l’échantillon de l’ensemble de données est petite, plus une valeur aberrante est susceptible d’affecter la moyenne.

Par exemple, supposons que nous ayons un ensemble de données de 100 résultats d’examens dans lesquels tous les étudiants ont obtenu au moins 90 ou plus, à l’exception d’un élève qui a obtenu un zéro :

[ 0 , 90, 90, 92, 94, 95, 95, 96, 97, 99, 94, 90, 90, 92, 94, 95, 95, 96, 97, 99, 93, 90, 90, 92, 94 , 95, 95, 96, 97, 99, 93, 90, 90, 92, 94, 95, 95, 96, 97, 99, 93, 90, 90, 92, 94, 95, 95, 96, 97, 99 , 93, 90, 90, 92, 94, 95, 95, 96, 97, 99, 93, 90, 90, 92, 94, 95, 95, 96, 97, 99, 93, 90, 90, 92, 94 , 95, 95, 96, 97, 99, 93, 90, 90, 92, 94, 95, 95, 96, 97, 99, 93, 90, 90, 92, 94, 95, 95, 96, 97, 99 ]

La moyenne s’avère être de 93,18 . Si nous supprimions le « 0 » de l’ensemble de données, la moyenne serait de 94,12 . Il s’agit d’une différence relativement faible. Cela montre que même une valeur aberrante extrême n’a qu’un effet minime si l’ensemble de données est suffisamment grand.

Comment gérer les valeurs aberrantes

Si vous craignez la présence d’une valeur aberrante dans votre ensemble de données, vous disposez de plusieurs options :

  • Assurez-vous que la valeur aberrante n’est pas le résultat d’une erreur de saisie de données. Parfois, un individu saisit simplement une mauvaise valeur de données lors de l’enregistrement des données. Si une valeur aberrante est présente, vérifiez d’abord que la valeur a été saisie correctement et qu’il ne s’agissait pas d’une erreur.
  • Attribuez une nouvelle valeur à la valeur aberrante . Si la valeur aberrante s’avère être le résultat d’une erreur de saisie de données, vous pouvez décider de lui attribuer une nouvelle valeur telle que la moyenne ou la médiane de l’ensemble de données.
  • Supprimez la valeur aberrante. Si la valeur est réellement aberrante, vous pouvez choisir de la supprimer si elle aura un impact significatif sur votre analyse globale. Assurez-vous simplement de mentionner dans votre rapport ou analyse final que vous avez supprimé une valeur aberrante.

Utilisez la médiane

Une autre façon de trouver le « centre » d’un ensemble de données consiste à utiliser la médiane , obtenue en classant toutes les valeurs individuelles d’un ensemble de données de la plus petite à la plus grande et en trouvant la valeur médiane.

En raison de la façon dont elle est calculée, la médiane est moins affectée par les valeurs aberrantes et elle capture mieux l’emplacement central d’une distribution lorsqu’il y a des valeurs aberrantes.

Par exemple, considérons le graphique suivant qui montre la superficie en pieds carrés des maisons dans un quartier particulier :

La moyenne est fortement influencée par quelques maisons extrêmement grandes, alors que la médiane ne l’est pas. Ainsi, la médiane parvient mieux à capturer la superficie « typique » d’une maison dans ce quartier que la moyenne.

Lectures complémentaires :

Mesures de tendance centrale – moyenne, médiane et mode
Test Q de Dixon pour détecter les valeurs aberrantes
Calculateur de valeurs aberrantes

Ajouter un commentaire

Votre adresse e-mail ne sera pas publiée. Les champs obligatoires sont indiqués avec *