Как нормализовать данные в sas
«Нормализация» набора значений данных означает масштабирование значений таким образом, чтобы среднее значение всех значений было равно 0, а стандартное отклонение равно 1.
В этом руководстве объясняется, как нормализовать данные в SAS.
Пример: как нормализовать данные в SAS
Предположим, у нас есть следующий набор данных:
Выполните следующие шаги, чтобы нормализовать этот набор значений данных в SAS.
Шаг 1. Создайте набор данных
Сначала давайте воспользуемся следующим кодом для создания набора данных в SAS:
/*create dataset*/ data original_data; input values; datalines ; 12 14 15 15 16 17 18 20 24 25 26 29 32 34 37 ; run ; /*view mean and standard deviation of dataset*/ proc means data =original_data Mean StdDev ndec= 3 ; var values; run ;
Из результата мы видим, что среднее значение набора данных составляет 22,267 , а стандартное отклонение — 7,968 .
Шаг 2. Нормализуйте набор данных
Далее мы воспользуемся процедурой stdize для нормализации набора данных:
/*normalize the dataset*/
proc stdize data =original_data out =normalized_data;
var values;
run ;
/*print normalized dataset*/
proc print data =normalized_data;
/*view mean and standard deviation of normalized dataset*/
proc means data =normalized_data Mean StdDev ndec= 2 ;
var values;
run ;
Из результата мы видим, что среднее значение нормализованного набора данных равно 0 , а стандартное отклонение равно 1 .
Шаг 3: Интерпретируйте нормализованные данные
SAS использовал следующую формулу для нормализации значений данных:
Нормализованное значение = (x – x )/s
Золото:
- х = значение данных
- x = среднее значение набора данных
- s = стандартное отклонение набора данных
Каждое нормализованное значение сообщает нам количество стандартных отклонений между исходным значением данных и средним значением.
Например, рассмотрим точку данных «12» в нашем исходном наборе данных. Среднее значение исходной выборки составляло 22,267, а стандартное отклонение исходной выборки составляло 7,968.
Нормализованное значение для «12» оказалось -1,288, рассчитанное следующим образом:
Нормализованное значение = (x – x )/s = (12 – 22,267)/7,968 = -1,288
Это говорит нам о том, что значение «12» на 1,288 стандартных отклонений ниже среднего значения исходного набора данных.
Каждое из нормализованных значений в наборе данных может помочь нам понять, насколько близко или далеко конкретное значение данных находится от среднего значения.
Небольшое нормализованное значение указывает на то, что значение близко к среднему, тогда как большое нормализованное значение указывает на то, что значение далеко от среднего.
Дополнительные ресурсы
В следующих руководствах объясняется, как выполнять другие распространенные задачи в SAS:
Как использовать сводку процедур в SAS
Как рассчитать корреляцию в SAS
Как создать таблицы частот в SAS