Як нормалізувати дані в sas


«Нормалізувати» набір значень даних означає масштабувати значення таким чином, щоб середнє значення всіх значень дорівнювало 0, а стандартне відхилення дорівнювало 1.

Цей посібник пояснює, як нормалізувати дані в SAS.

Приклад: як нормалізувати дані в SAS

Припустимо, що ми маємо наступний набір даних:

Виконайте наступні дії, щоб нормалізувати цей набір значень даних у SAS.

Крок 1: Створіть набір даних

Спочатку скористаємося таким кодом, щоб створити набір даних у SAS:

 /*create dataset*/
data original_data;
    input values;
    datalines ;
12
14
15
15
16
17
18
20
24
25
26
29
32
34
37
;
run ;

/*view mean and standard deviation of dataset*/
proc means data =original_data Mean StdDev ndec= 3 ; 
   var values;
run ; 

З результату ми бачимо, що середнє значення набору даних становить 22,267 , а стандартне відхилення – 7,968 .

Крок 2: нормалізуйте набір даних

Далі ми використаємо proc stdize для нормалізації набору даних:

 /*normalize the dataset*/
proc stdize data =original_data out =normalized_data;
   var values;
run ;

/*print normalized dataset*/
proc print data =normalized_data;
 
/*view mean and standard deviation of normalized dataset*/
proc means data =normalized_data Mean StdDev ndec= 2 ; 
   var values;
run ; 

З результату ми бачимо, що середнє значення нормалізованого набору даних дорівнює 0 , а стандартне відхилення дорівнює 1 .

Крок 3: Інтерпретація нормалізованих даних

SAS використовував таку формулу для нормалізації значень даних:

Нормоване значення = (x – x ) / с

золото:

  • x = значення даних
  • x = середнє значення набору даних
  • s = стандартне відхилення набору даних

Кожне нормалізоване значення повідомляє нам кількість стандартних відхилень між початковим значенням даних і середнім.

Наприклад, розглянемо точку даних «12» у нашому вихідному наборі даних. Початкове середнє значення вибірки становило 22,267, а стандартне відхилення вихідної вибірки становило 7,968.

Нормоване значення для «12» виявилося -1,288, розраховане таким чином:

Нормоване значення = (x – x ) / s = (12 – 22,267) / 7,968 = -1,288

Це говорить нам про те, що значення «12» на 1,288 стандартних відхилень нижче середнього значення вихідного набору даних.

Кожне з нормалізованих значень у наборі даних може допомогти нам зрозуміти, наскільки близьке чи далеке певне значення даних від середнього.

Невелике нормалізоване значення вказує на те, що значення близьке до середнього, а велике нормалізоване значення вказує на те, що значення далеке від середнього.

Додаткові ресурси

У наступних посібниках пояснюється, як виконувати інші типові завдання в SAS:

Як використовувати зведення процедур у SAS
Як розрахувати кореляцію в SAS
Як створити частотні таблиці в SAS

Додати коментар

Ваша e-mail адреса не оприлюднюватиметься. Обов’язкові поля позначені *