Le guide complet : Quand supprimer les valeurs aberrantes dans les données



Une valeur aberrante est une observation anormalement éloignée des autres valeurs d’un ensemble de données.

Les valeurs aberrantes peuvent poser problème car elles peuvent affecter les résultats d’une analyse.

Cependant, ils peuvent également fournir des informations sur les données que vous étudiez, car ils peuvent révéler des cas anormaux ou des individus présentant des traits rares.

Dans toute analyse, vous devez décider de supprimer ou de conserver les valeurs aberrantes.

Heureusement, vous pouvez utiliser l’organigramme suivant pour vous aider à prendre une décision :

organigramme pour décider de supprimer les valeurs aberrantes dans les données

Examinons de plus près chaque question de l’organigramme.

La valeur aberrante est-elle le résultat d’une erreur de saisie de données ?

Parfois, les valeurs aberrantes dans un ensemble de données sont simplement le résultat d’une erreur de saisie de données.

Par exemple, supposons qu’un biologiste collecte des données sur la hauteur d’une certaine espèce de plantes et enregistre les données suivantes :

  • 6,83 pouces
  • 7,51 pouces
  • 5,21 pouces
  • 5,84 pouces
  • 7,83 pouces
  • 755 pouces
  • 6,53 pouces
  • 6,31 pouces
  • 5,91 pouces

De toute évidence, l’entrée pour 755 pouces est une valeur aberrante et est probablement le résultat d’une erreur de saisie de données. Il est plus que probable que la hauteur aurait dû être de 7,55 pouces, mais elle a simplement été mal saisie.

Si le biologiste conservait cette observation et calculait une statistique descriptive comme la hauteur moyenne des plantes de l’échantillon, cette observation fausserait grandement les résultats et donnerait une image inexacte de la véritable hauteur moyenne des plantes.

Dans ce scénario (et dans des scénarios similaires à celui-ci), il est logique de supprimer cette valeur aberrante de l’ensemble de données, car il s’agit d’une erreur et ne constitue pas un point de données légitime à inclure dans l’analyse.

La valeur aberrante affecte-t-elle de manière significative les résultats de l’analyse ?

Si une observation est une véritable valeur aberrante et ne résulte pas simplement d’une erreur de saisie de données, nous devons alors examiner si la valeur aberrante affecte ou non les résultats de l’analyse.

Par exemple, supposons qu’un biologiste étudie la relation entre l’engrais et la hauteur des plantes. Elle souhaite adapter un modèle de régression linéaire simple utilisant l’engrais comme variable prédictive et la hauteur de la plante comme variable de réponse .

Elle collecte les données suivantes pour 12 usines différentes :

Il est clair que la dernière observation est aberrante.

Cependant, si nous créons un nuage de points pour visualiser cet ensemble de données, nous pouvons voir que la droite de régression ne changerait pas beaucoup, que nous incluions ou non la valeur aberrante :

Dans ce scénario, la valeur aberrante ne viole en réalité aucune des hypothèses d’un modèle de régression linéaire , nous pourrions donc la conserver dans l’ensemble de données.

Cependant, supposons que nous ayons la valeur aberrante suivante dans les données :

De toute évidence, cette valeur aberrante affecte de manière significative la droite de régression, nous pouvons donc ajuster un modèle de régression avec la valeur aberrante et un autre sans, puis rapporter les résultats des deux modèles de régression.

La valeur aberrante affecte-t-elle les hypothèses formulées dans l’analyse ?

Si une valeur aberrante n’est pas le résultat d’une erreur de saisie de données et n’affecte pas de manière significative les résultats d’une analyse, nous devons alors nous demander si la valeur aberrante affecte ou non les hypothèses formulées dans une analyse.

Si cela n’affecte pas les hypothèses, nous pouvons simplement le conserver dans les données.

Cependant, si cela affecte les hypothèses, nous avons plusieurs options :

1. Retirez-le. Nous pouvons simplement le supprimer des données et en prendre note lors de la communication des résultats.

2. Effectuez une transformation sur les données. Au lieu de supprimer la valeur aberrante, nous pourrions essayer d’effectuer une transformation sur les données, par exemple en prenant la racine carrée ou le journal de toutes les valeurs des données. Il a été démontré que cela réduit les valeurs aberrantes et rend souvent les données plus normalement distribuées .

Quelle que soit la manière dont vous décidez de traiter les valeurs aberrantes dans vos données, vous devez noter votre décision dans le résultat de votre analyse ainsi que votre raisonnement.

Ressources additionnelles

Les didacticiels suivants expliquent comment rechercher et supprimer les valeurs aberrantes dans différents logiciels statistiques :

Comment trouver les valeurs aberrantes dans Excel
Comment trouver les valeurs aberrantes dans Google Sheets
Comment trouver les valeurs aberrantes dans R
Comment trouver les valeurs aberrantes en Python
Comment trouver les valeurs aberrantes dans SPSS

Ajouter un commentaire

Votre adresse e-mail ne sera pas publiée. Les champs obligatoires sont indiqués avec *