Comment winsoriser les données : définition & Exemples
Winsoriser les données signifie définir des valeurs aberrantes extrêmes égales à un centile spécifié des données.
Par exemple, une winsorisation de 90 % définit toutes les observations supérieures au 95e centile égales à la valeur au 95e centile et toutes les observations inférieures au 5e centile égales à la valeur au 5e centile.
En effet, winsoriser les données signifie modifier les valeurs extrêmes d’un ensemble de données en valeurs moins extrêmes.
Exemple : Comment winsoriser les données
Supposons que nous ayons l’ensemble de données suivant :
3, 14, 16, 16, 17, 29, 34, 36, 39, 47, 59, 64, 65, 66, 68, 79, 91, 98
Pour effectuer une winsorisation à 90 % sur cet ensemble de données, nous trouverions d’abord le 5ème centile et le 95ème centile, qui s’avèrent être :
- 5ème centile : 12,35
- 95e centile : 92,05
Nous définirions alors toutes les valeurs inférieures à 12,35 égales à 12,35 et toutes les valeurs supérieures à 92,05 égales à 92,05 :
12.35, 14, 16, 16, 17, 29, 34, 36, 39, 47, 59, 64, 65, 66, 68, 79, 91, 92.05
Dans ce cas, la valeur 3 est devenue 12,35 et la valeur 98 est devenue 92,05 .
Pourquoi Winsoriser les données ?
La moyenne et l’écart type sont deux méthodes courantes pour mesurer respectivement l’ emplacement du centre d’un ensemble de données et la répartition des observations dans un ensemble de données.
Cependant, ces deux mesures peuvent toutes deux être influencées par des valeurs aberrantes extrêmes. Ainsi, la winsorisation des données nous permet de définir des valeurs aberrantes extrêmes égales à des valeurs moins extrêmes.
Cela nous permet souvent d’obtenir une vue plus précise de la moyenne et de l’écart type de l’ensemble de données.
Tailler ou winsoriser
Une autre manière courante de traiter les valeurs aberrantes consiste à les supprimer de l’ensemble de données, ce qui signifie les supprimer entièrement.
Par exemple, considérons l’ensemble de données précédent :
3, 14, 16, 16, 17, 29, 34, 36, 39, 47, 59, 64, 65, 66, 68, 79, 91, 98
Si nous voulions réduire les valeurs inférieures au 5e centile ou supérieures au 95e centile, nous supprimerions simplement les valeurs 3 et 98 .
Voici quelques règles empiriques pour savoir quand utiliser le découpage ou la winsorisation :
Découpage : il est logique de découper les valeurs des données lorsque certaines valeurs semblent complètement déraisonnables, c’est-à-dire qu’elles résultent d’une erreur de saisie de données.
Winsorisation : il est logique de winsoriser les données lorsque nous voulons conserver les observations qui se situent aux extrêmes, mais que nous ne voulons pas les prendre trop au pied de la lettre.
Précautions concernant la winsorisation des données
Voici quelques éléments à garder à l’esprit lorsque vous décidez de gagner des données :
1. S’il n’y a pas de valeurs aberrantes extrêmes, la winsorisation des données ne modifiera que légèrement les valeurs les plus petites et les plus grandes. Ce n’est généralement pas une bonne idée car cela signifie que nous modifions simplement les valeurs des données dans le seul but de les modifier.
2. Les valeurs aberrantes peuvent représenter des cas extrêmes intéressants dans les données. Ainsi, avant de modifier les valeurs aberrantes, il est judicieux de les examiner de plus près pour voir ce qui a pu les provoquer.
3. Vous devez décider de winsoriser ou non les données après la collecte des données, pas avant. Vous devriez voir s’il existe réellement des valeurs aberrantes extrêmes avant de décider d’effectuer une winsorisation. Si aucune valeur aberrante extrême n’est présente, la winsorisation peut s’avérer inutile.
Tutoriel : Winsoriser les données dans Excel
Reportez-vous à ce didacticiel pour un exemple étape par étape de la façon de winsoriser un ensemble de données dans Excel.