Comment normaliser les données dans SAS



« Normaliser » un ensemble de valeurs de données signifie mettre les valeurs à l’échelle de telle sorte que la moyenne de toutes les valeurs soit 0 et l’écart type soit 1.

Ce tutoriel explique comment normaliser les données dans SAS.

Exemple : Comment normaliser les données dans SAS

Supposons que nous ayons l’ensemble de données suivant :

Effectuez les étapes suivantes pour normaliser cet ensemble de valeurs de données dans SAS.

Étape 1 : Créer l’ensemble de données

Tout d’abord, utilisons le code suivant pour créer l’ensemble de données dans SAS :

/*create dataset*/
data original_data;
    input values;
    datalines;
12
14
15
15
16
17
18
20
24
25
26
29
32
34
37
;
run;

/*view mean and standard deviation of dataset*/
proc means data=original_data Mean StdDev ndec=3; 
   var values;
run;

À partir du résultat, nous pouvons voir que la moyenne de l’ensemble de données est de 22,267 et l’écart type est de 7,968 .

Étape 2 : normaliser l’ensemble de données

Ensuite, nous utiliserons proc stdize pour normaliser l’ensemble de données :

/*normalize the dataset*/
proc stdize data=original_data out=normalized_data;
   var values;
run;

/*print normalized dataset*/
proc print data=normalized_data;
 
/*view mean and standard deviation of normalized dataset*/
proc means data=normalized_data Mean StdDev ndec=2; 
   var values;
run;

À partir du résultat, nous pouvons voir que la moyenne de l’ensemble de données normalisé est 0 et l’écart type est 1 .

Étape 3 : interpréter les données normalisées

SAS a utilisé la formule suivante pour normaliser les valeurs des données :

Valeur normalisée = (x – x ) / s

où:

  • x = valeur des données
  • x = moyenne de l’ensemble de données
  • s = écart type de l’ensemble de données

Chaque valeur normalisée nous indique le nombre d’écarts types entre la valeur des données d’origine et la moyenne.

Par exemple, considérons le point de données « 12 » dans notre ensemble de données d’origine. La moyenne de l’échantillon d’origine était de 22,267 et l’écart type de l’échantillon d’origine était de 7,968.

La valeur normalisée pour « 12 » s’est avérée être de -1,288, calculée comme suit :

Valeur normalisée = (x – x ) / s = (12 – 22,267) / 7,968 = -1,288

Cela nous indique que la valeur « 12 » est inférieure de 1,288 écarts-types à la moyenne de l’ensemble de données d’origine.

Chacune des valeurs normalisées de l’ensemble de données peut nous aider à comprendre à quel point une valeur de données particulière est proche ou éloignée de la moyenne.

Une petite valeur normalisée indique qu’une valeur est proche de la moyenne tandis qu’une grande valeur normalisée indique qu’une valeur est éloignée de la moyenne.

Ressources additionnelles

Les didacticiels suivants expliquent comment effectuer d’autres tâches courantes dans SAS :

Comment utiliser le résumé de procédure dans SAS
Comment calculer la corrélation dans SAS
Comment créer des tableaux de fréquences dans SAS

Ajouter un commentaire

Votre adresse e-mail ne sera pas publiée. Les champs obligatoires sont indiqués avec *