Comment identifier les valeurs aberrantes dans SPSS
Une valeur aberrante est une observation anormalement éloignée des autres valeurs d’un ensemble de données. Les valeurs aberrantes peuvent poser problème car elles peuvent affecter les résultats d’une analyse.
Ce didacticiel explique comment identifier et gérer les valeurs aberrantes dans SPSS.
Comment identifier les valeurs aberrantes dans SPSS
Supposons que nous disposions de l’ensemble de données suivant qui montre le revenu annuel (en milliers) de 15 personnes :
Une façon de déterminer si des valeurs aberrantes sont présentes consiste à créer une boîte à moustaches pour l’ensemble de données. Pour cela, cliquez sur l’onglet Analyser , puis Statistiques descriptives , puis Explorer :
Dans la nouvelle fenêtre qui apparaît, faites glisser le revenu variable dans la case intitulée Liste des personnes à charge. Cliquez ensuite sur Statistiques et assurez-vous que la case à côté de Percentiles est cochée. Cliquez ensuite sur Continuer . Cliquez ensuite sur OK .
Une fois que vous avez cliqué sur OK , une boîte à moustaches apparaîtra :
S’il n’y a pas de cercles ou d’astérisques à chaque extrémité de la boîte à moustaches, cela indique qu’aucune valeur aberrante n’est présente.
SPSS considère toute valeur de données comme une valeur aberrante si elle se situe en dehors des plages suivantes :
- 3ème quartile + 1,5*intervalle interquartile
- 1er quartile – 1,5*intervalle interquartile
Nous pouvons calculer l’écart interquartile en prenant la différence entre le 75e et le 25e centile dans la ligne intitulée Charnières de Tukey dans le résultat :
Pour cet ensemble de données, l’intervalle interquartile est 82 – 36 = 46 . Ainsi, toute valeur en dehors des plages suivantes serait considérée comme des valeurs aberrantes :
- 82 + 1,5*46 = 151
- 36 – 1,5*46 = -33
Évidemment, le revenu ne peut pas être négatif, donc la limite inférieure dans cet exemple n’est pas utile. Cependant, tout revenu supérieur à 151 serait considéré comme une valeur aberrante.
Par exemple, supposons que la plus grande valeur de notre ensemble de données soit plutôt de 152. Voici le diagramme en boîte de cet ensemble de données :
Le cercle indique qu’une valeur aberrante est présente dans les données. Le nombre 15 indique quelle observation de l’ensemble de données est la valeur aberrante.
SPSS considère également toute valeur de données comme une valeur aberrante extrême si elle se situe en dehors des plages suivantes :
- 3ème quartile + 3*intervalle interquartile
- 1er quartile – 3*intervalle interquartile
Ainsi, toute valeur en dehors des plages suivantes serait considérée comme des valeurs aberrantes extrêmes dans cet exemple :
- 82 + 3*46 = 220
- 36 – 3*46 = -102
Par exemple, supposons que la plus grande valeur de notre ensemble de données soit 221. Voici le diagramme en boîte de cet ensemble de données :
L’astérisque (*) indique qu’une valeur aberrante extrême est présente dans les données. Le nombre 15 indique quelle observation de l’ensemble de données est la valeur aberrante extrême.
Comment gérer les valeurs aberrantes
Si une valeur aberrante est présente dans vos données, vous disposez de plusieurs options :
1. Assurez-vous que la valeur aberrante n’est pas le résultat d’une erreur de saisie de données.
Parfois, un individu saisit simplement une mauvaise valeur de données lors de l’enregistrement des données. Si une valeur aberrante est présente, vérifiez d’abord que la valeur a été saisie correctement et qu’il ne s’agissait pas d’une erreur.
2. Supprimez la valeur aberrante.
Si la valeur est réellement aberrante, vous pouvez choisir de la supprimer si elle aura un impact significatif sur votre analyse globale. Assurez-vous simplement de mentionner dans votre rapport ou analyse final que vous avez supprimé une valeur aberrante.
3. Attribuez une nouvelle valeur à la valeur aberrante .
Si la valeur aberrante s’avère être le résultat d’une erreur de saisie de données, vous pouvez décider de lui attribuer une nouvelle valeur telle que la moyenne ou la médiane de l’ensemble de données.
Ressources additionnelles
Si vous travaillez avec plusieurs variables à la fois, vous souhaiterez peut-être utiliser la distance de Mahalanobis pour détecter les valeurs aberrantes.