Как нормализовать данные в sas


«Нормализация» набора значений данных означает масштабирование значений таким образом, чтобы среднее значение всех значений было равно 0, а стандартное отклонение равно 1.

В этом руководстве объясняется, как нормализовать данные в SAS.

Пример: как нормализовать данные в SAS

Предположим, у нас есть следующий набор данных:

Выполните следующие шаги, чтобы нормализовать этот набор значений данных в SAS.

Шаг 1. Создайте набор данных

Сначала давайте воспользуемся следующим кодом для создания набора данных в SAS:

 /*create dataset*/
data original_data;
    input values;
    datalines ;
12
14
15
15
16
17
18
20
24
25
26
29
32
34
37
;
run ;

/*view mean and standard deviation of dataset*/
proc means data =original_data Mean StdDev ndec= 3 ; 
   var values;
run ; 

Из результата мы видим, что среднее значение набора данных составляет 22,267 , а стандартное отклонение — 7,968 .

Шаг 2. Нормализуйте набор данных

Далее мы воспользуемся процедурой stdize для нормализации набора данных:

 /*normalize the dataset*/
proc stdize data =original_data out =normalized_data;
   var values;
run ;

/*print normalized dataset*/
proc print data =normalized_data;
 
/*view mean and standard deviation of normalized dataset*/
proc means data =normalized_data Mean StdDev ndec= 2 ; 
   var values;
run ; 

Из результата мы видим, что среднее значение нормализованного набора данных равно 0 , а стандартное отклонение равно 1 .

Шаг 3: Интерпретируйте нормализованные данные

SAS использовал следующую формулу для нормализации значений данных:

Нормализованное значение = (x – x )/s

Золото:

  • х = значение данных
  • x = среднее значение набора данных
  • s = стандартное отклонение набора данных

Каждое нормализованное значение сообщает нам количество стандартных отклонений между исходным значением данных и средним значением.

Например, рассмотрим точку данных «12» в нашем исходном наборе данных. Среднее значение исходной выборки составляло 22,267, а стандартное отклонение исходной выборки составляло 7,968.

Нормализованное значение для «12» оказалось -1,288, рассчитанное следующим образом:

Нормализованное значение = (x – x )/s = (12 – 22,267)/7,968 = -1,288

Это говорит нам о том, что значение «12» на 1,288 стандартных отклонений ниже среднего значения исходного набора данных.

Каждое из нормализованных значений в наборе данных может помочь нам понять, насколько близко или далеко конкретное значение данных находится от среднего значения.

Небольшое нормализованное значение указывает на то, что значение близко к среднему, тогда как большое нормализованное значение указывает на то, что значение далеко от среднего.

Дополнительные ресурсы

В следующих руководствах объясняется, как выполнять другие распространенные задачи в SAS:

Как использовать сводку процедур в SAS
Как рассчитать корреляцию в SAS
Как создать таблицы частот в SAS

Добавить комментарий

Ваш адрес email не будет опубликован. Обязательные поля помечены *