Як нормалізувати дані в sas
«Нормалізувати» набір значень даних означає масштабувати значення таким чином, щоб середнє значення всіх значень дорівнювало 0, а стандартне відхилення дорівнювало 1.
Цей посібник пояснює, як нормалізувати дані в SAS.
Приклад: як нормалізувати дані в SAS
Припустимо, що ми маємо наступний набір даних:
Виконайте наступні дії, щоб нормалізувати цей набір значень даних у SAS.
Крок 1: Створіть набір даних
Спочатку скористаємося таким кодом, щоб створити набір даних у SAS:
/*create dataset*/ data original_data; input values; datalines ; 12 14 15 15 16 17 18 20 24 25 26 29 32 34 37 ; run ; /*view mean and standard deviation of dataset*/ proc means data =original_data Mean StdDev ndec= 3 ; var values; run ;
З результату ми бачимо, що середнє значення набору даних становить 22,267 , а стандартне відхилення – 7,968 .
Крок 2: нормалізуйте набір даних
Далі ми використаємо proc stdize для нормалізації набору даних:
/*normalize the dataset*/
proc stdize data =original_data out =normalized_data;
var values;
run ;
/*print normalized dataset*/
proc print data =normalized_data;
/*view mean and standard deviation of normalized dataset*/
proc means data =normalized_data Mean StdDev ndec= 2 ;
var values;
run ;
З результату ми бачимо, що середнє значення нормалізованого набору даних дорівнює 0 , а стандартне відхилення дорівнює 1 .
Крок 3: Інтерпретація нормалізованих даних
SAS використовував таку формулу для нормалізації значень даних:
Нормоване значення = (x – x ) / с
золото:
- x = значення даних
- x = середнє значення набору даних
- s = стандартне відхилення набору даних
Кожне нормалізоване значення повідомляє нам кількість стандартних відхилень між початковим значенням даних і середнім.
Наприклад, розглянемо точку даних «12» у нашому вихідному наборі даних. Початкове середнє значення вибірки становило 22,267, а стандартне відхилення вихідної вибірки становило 7,968.
Нормоване значення для «12» виявилося -1,288, розраховане таким чином:
Нормоване значення = (x – x ) / s = (12 – 22,267) / 7,968 = -1,288
Це говорить нам про те, що значення «12» на 1,288 стандартних відхилень нижче середнього значення вихідного набору даних.
Кожне з нормалізованих значень у наборі даних може допомогти нам зрозуміти, наскільки близьке чи далеке певне значення даних від середнього.
Невелике нормалізоване значення вказує на те, що значення близьке до середнього, а велике нормалізоване значення вказує на те, що значення далеке від середнього.
Додаткові ресурси
У наступних посібниках пояснюється, як виконувати інші типові завдання в SAS:
Як використовувати зведення процедур у SAS
Як розрахувати кореляцію в SAS
Як створити частотні таблиці в SAS