Як виконати перетворення журналу в sas

Багато статистичних тестів припускають, що значення конкретної змінної розподілені нормально .

Однак значення часто не розподіляються нормально. Один із способів розв’язати цю проблему — перетворити змінну, взявши логарифм кожного значення.

Виконуючи це перетворення, змінна зазвичай наближається до нормального розподілу.

У наступному прикладі показано, як виконати перетворення журналу для змінної в SAS.

Приклад: перетворення журналу в SAS

Припустімо, що в SAS є такий набір даних:

 /*create dataset*/
data my_data;
    input x;
    datalines ;
1
1
1
2
2
2
2
2
2
3
3
3
6
7
8
;
run ;

/*view dataset*/
proc print data =my_data;

Ми можемо використовувати PROC UNIVARIATE для перевірки нормальності змінної x, щоб визначити, чи є вона нормально розподіленою, а також створити гістограму для візуалізації розподілу значень:

 /*create histogram and perform normality tests*/
proc univariate data =my_data normal ; 
histogram x;
run ; 

В останній таблиці під назвою Тести нормальності ми бачимо, що p-значення тесту Шапіро-Вілка менше 0,05, що є переконливим доказом того, що змінна x не розподілена нормально.

Гістограма також показує, що розподіл значень не виглядає нормально розподіленим:

Ми можемо спробувати трансформувати журнал вихідного набору даних, щоб побачити, чи зможемо ми створити більш нормально розподілений набір даних.

Ми можемо використати наступний код, щоб створити новий набір даних у SAS, де ми беремо журнал кожного з початкових значень x:

 /*use log transformation to create new dataset*/
data log_data;
    set my_data;
    x = log (x);
run ;

/*view log transformed data*/
proc print data =log_data; 

Потім ми можемо знову використати PROC UNIVARIATE , щоб виконати тести на нормальність перетвореної змінної, а також створити гістограму:

 /*create histogram and perform normality tests*/
proc univariate data =log_data normal ; 
histogram x;
run ; 

В останній таблиці під назвою Тести нормальності ми бачимо, що p-значення для тесту Шапіро-Вілка тепер перевищує 0,05.

Гістограма також показує, що розподіл значень трохи більш нормальний, ніж це було до перетворення:

На основі результатів тесту Шапіро-Вілка та гістограми, наведеної вище, ми зробили висновок, що логарифмічне перетворення створило набагато більш нормально розподілену змінну, ніж вихідна змінна.

Додаткові ресурси

У наступних посібниках пояснюється, як виконувати інші типові завдання в SAS:

Як визначити викиди в SAS
Як розрахувати відстань приготування в SAS
Як створити гістограми в SAS

Додати коментар

Ваша e-mail адреса не оприлюднюватиметься. Обов’язкові поля позначені *