Comment normaliser les données entre 0 et 1



Pour normaliser les valeurs d’un ensemble de données entre 0 et 1, vous pouvez utiliser la formule suivante :

z je = (x je – min(x)) / (max(x) – min(x))

où:

  • z i : la ième valeur normalisée dans l’ensemble de données
  • x i : la ième valeur de l’ensemble de données
  • min(x) : La valeur minimale dans l’ensemble de données
  • max(x) : La valeur maximale dans l’ensemble de données

Par exemple, supposons que nous ayons l’ensemble de données suivant :

La valeur minimale dans l’ensemble de données est 13 et la valeur maximale est 71.

Pour normaliser la première valeur de 13 , nous appliquerions la formule partagée précédemment :

  • z je = (x je – min(x)) / (max(x) – min(x)) = (13 – 13) / (71 – 13) = 0

Pour normaliser la deuxième valeur de 16 , nous utiliserions la même formule :

  • z je = (x je – min(x)) / (max(x) – min(x)) = (16 – 13) / (71 – 13) = 0,0517

Pour normaliser la troisième valeur de 19 , nous utiliserions la même formule :

  • z je = (x je – min(x)) / (max(x) – min(x)) = (19 – 13) / (71 – 13) = 0,1034

Nous pouvons utiliser exactement cette même formule pour normaliser chaque valeur de l’ensemble de données d’origine entre 0 et 1 :

Normaliser les données entre 0 et 1

En utilisant cette méthode de normalisation, les affirmations suivantes seront toujours vraies :

  • La valeur normalisée pour la valeur minimale dans l’ensemble de données sera toujours 0.
  • La valeur normalisée pour la valeur maximale dans l’ensemble de données sera toujours 1.
  • Les valeurs normalisées pour toutes les autres valeurs de l’ensemble de données seront comprises entre 0 et 1.

Quand normaliser les données

Souvent, nous normalisons les variables lorsque nous effectuons un certain type d’analyse dans laquelle nous avons plusieurs variables mesurées à différentes échelles et nous souhaitons que chacune des variables ait la même plage.

Cela évite qu’une variable ait une influence excessive, surtout si elle est mesurée dans des unités différentes (c’est-à-dire si une variable est mesurée en pouces et une autre en yards).

Il convient également de noter que nous avons utilisé une méthode connue sous le nom de normalisation min-max dans ce didacticiel pour normaliser les valeurs des données.

Les deux méthodes de normalisation les plus courantes sont les suivantes :

1. Normalisation Min-Max

  • Objectif : Convertit chaque valeur de données en une valeur comprise entre 0 et 100.
  • Formule : Nouvelle valeur = (valeur – min) / (max – min) * 100

2. Normalisation moyenne

  • Objectif : met à l’échelle les valeurs de telle sorte que la moyenne de toutes les valeurs soit 0 et std. dév. est 1.
  • Formule : Nouvelle valeur = (valeur – moyenne) / (écart type)

Ressources additionnelles

Les tutoriels suivants expliquent comment normaliser les données à l’aide de différents logiciels statistiques :

Comment normaliser les données dans Excel
Comment normaliser les données dans R
Comment normaliser les colonnes en Python

Ajouter un commentaire

Votre adresse e-mail ne sera pas publiée. Les champs obligatoires sont indiqués avec *