Sas: как использовать одномерную процедуру proc для проверки нормальности
Вы можете использовать proc univariate в SAS с операторомnormal для выполнения нескольких проверок нормальности переменной в наборе данных.
В этой процедуре используется следующий базовый синтаксис:
proc univariate data =my_data normal ;
var my_variable;
run ;
В следующем примере показано, как использовать эту процедуру на практике.
Пример: Proc Univariate для проверки нормальности в SAS
Предположим, у нас есть следующий набор данных в SAS, содержащий информацию о различных баскетболистах:
/*create dataset*/
data my_data;
input team $pointsrebounds;
datalines ;
At 12 8
At 12 8
At 12 8
At 23 9
At 20 12
At 14 7
At 14 7
B 20 2
B 20 5
B 29 4
B 14 7
B 20 2
B 20 2
B 20 5
;
run ;
/*view dataset*/
proc print data =my_data;
Мы можем использовать proc univariate с операторомnormal для выполнения различных тестов на нормальность переменной точек :
proc univariate data =my_data normal ;
var points;
run ;
В результате будет отображено несколько таблиц, но таблица под названием «Тесты нормальности» содержит результаты тестов нормальности:
По умолчанию SAS выполняет четыре теста на нормальность и отображает статистику каждого из них и соответствующие значения p:
- Критерий Шапиро-Уилка : W = 0,867, p = 0,0383.
- Критерий Колмогорова-Смирнова : D = 0,237, p = 0,0318.
- Критерий Крамера-фон Мизеса : W-Sq = 0,152, p = 0,0200.
- Тест Андерсона-Дарлинга : A-Sq = 0,847, p = 0,0223.
В каждом тесте на нормальность используются следующие нулевые и альтернативные гипотезы:
- H 0 : Данные распределяются нормально.
- H A : Данные не распределяются нормально.
Поскольку значение p для каждого теста на нормальность меньше 0,05, мы бы отклонили нулевую гипотезу для каждого теста на нормальность.
Это означает, что имеется достаточно доказательств, чтобы сделать вывод о том, что переменная точек не имеет нормального распределения.
Обратите внимание, что вы также можете создать гистограмму с наложенной нормальной кривой, чтобы визуализировать распределение значений переменной точек :
proc univariate data =my_data;
histogram points / normal ;
run ;
Гистограмма показывает нам, что распределение значений не очень хорошо соответствует нормальной кривой, что согласуется с результатами проведенных нами тестов на нормальность.
Дополнительные ресурсы
В следующих руководствах объясняется, как выполнять другие распространенные задачи в SAS:
Как использовать сводку процедур в SAS
Как использовать Proc Tabulate в SAS
Как использовать сортировку Proc в SAS