Comment trouver facilement les valeurs aberrantes dans Excel



Une valeur aberrante est une observation anormalement éloignée des autres valeurs d’un ensemble de données.

Les valeurs aberrantes peuvent poser problème car elles peuvent affecter les résultats d’une analyse.

Nous utiliserons l’ensemble de données suivant dans Excel pour illustrer deux méthodes permettant de rechercher des valeurs aberrantes :

Connexe : Comment calculer la moyenne hors valeurs aberrantes dans Excel

Méthode 1 : Utiliser l’intervalle interquartile

L’ intervalle interquartile (IQR) est la différence entre le 75e centile (Q3) et le 25e centile (Q1) dans un ensemble de données. Il mesure la répartition des 50 % moyens des valeurs.

Nous pouvons définir une observation comme étant aberrante si elle est 1,5 fois l’écart interquartile supérieur au troisième quartile (Q3) ou 1,5 fois l’écart interquartile inférieur au premier quartile (Q1).

L’image suivante montre comment calculer l’intervalle interquartile dans Excel :

Ensuite, nous pouvons utiliser la formule mentionnée ci-dessus pour attribuer un « 1 » à toute valeur aberrante dans l’ensemble de données :

Trouver des valeurs aberrantes dans Excel

Nous constatons qu’une seule valeur – 164 – s’avère être une valeur aberrante dans cet ensemble de données.

Méthode 2 : utiliser les scores z

Un score z vous indique le nombre d’écarts types d’une valeur donnée par rapport à la moyenne. Nous utilisons la formule suivante pour calculer un z-score :

z = (X – μ) / σ

où:

  • X est une valeur de données brutes unique
  • μ est la moyenne de la population
  • σ est l’écart type de la population

Nous pouvons définir une observation comme étant aberrante si elle a un score z inférieur à -3 ou supérieur à 3.

L’image suivante montre comment calculer la moyenne et l’écart type d’un ensemble de données dans Excel :

Nous pouvons ensuite utiliser la moyenne et l’écart type pour trouver le score z pour chaque valeur individuelle de l’ensemble de données :

Nous pouvons alors attribuer un « 1 » à toute valeur dont le z-score est inférieur à -3 ou supérieur à 3 :

Recherche de valeurs aberrantes dans Excel à l'aide des scores z

En utilisant cette méthode, nous constatons qu’il n’y a aucune valeur aberrante dans l’ensemble de données.

Remarque : Parfois, un score z de 2,5 est utilisé au lieu de 3. Dans ce cas, la valeur individuelle de 164 serait considérée comme une valeur aberrante car elle a un score z supérieur à 2,5.

Lorsque vous utilisez la méthode du score z, faites preuve de jugement pour déterminer quelle valeur du score z vous considérez comme une valeur aberrante.

Comment gérer les valeurs aberrantes

Si une valeur aberrante est présente dans vos données, vous disposez de plusieurs options :

1. Assurez-vous que la valeur aberrante n’est pas le résultat d’une erreur de saisie de données.

Parfois, un individu saisit simplement une mauvaise valeur de données lors de l’enregistrement des données. Si une valeur aberrante est présente, vérifiez d’abord que la valeur a été saisie correctement et qu’il ne s’agissait pas d’une erreur.

2. Supprimez la valeur aberrante.

Si la valeur est réellement aberrante, vous pouvez choisir de la supprimer si elle aura un impact significatif sur votre analyse globale. Assurez-vous simplement de mentionner dans votre rapport ou analyse final que vous avez supprimé une valeur aberrante.

3. Attribuez une nouvelle valeur à la valeur aberrante .

Si la valeur aberrante est le résultat d’une erreur de saisie de données, vous pouvez décider de lui attribuer une nouvelle valeur telle que la moyenne ou la médiane de l’ensemble de données.

Ajouter un commentaire

Votre adresse e-mail ne sera pas publiée. Les champs obligatoires sont indiqués avec *