Как рассчитать асимметрию и эксцесс в sas
В статистике асимметрия и эксцесс — это два способа измерения формы распределения.
Асимметрия измеряет асимметрию распределения.
- Отрицательная асимметрия указывает на то, что хвост находится на левой стороне распределения.
- Положительный перекос указывает на то, что хвост находится на правой стороне распределения.
- Нулевое значение указывает на отсутствие асимметрии в распределении, а это означает, что распределение совершенно симметрично.
Куртозис измеряет, является ли распределение тяжелым или легким по сравнению с нормальным распределением .
- Эксцесс нормального распределения равен 0.
- Если данное распределение имеет эксцесс меньше 0, его называют плейкуртическим , что означает, что оно имеет тенденцию давать все меньше и меньше экстремальных выбросов, чем нормальное распределение.
- Если данное распределение имеет эксцесс больше 0, оно называется лептокуртическим , что означает, что оно имеет тенденцию давать больше выбросов, чем нормальное распределение.
Чтобы вычислить асимметрию и эксцесс переменных в SAS, вы можете использовать операторы SKEWNESS и KURTOSIS в PROC MEANS .
В следующем примере показано, как использовать эти инструкции на практике.
Пример: расчет асимметрии и эксцесса в SAS
Предположим, у нас есть следующий набор данных в SAS, содержащий информацию о различных баскетболистах:
/*create dataset*/ data my_data; input team $points assists; datalines ; At 10 2 At 17 5 At 17 6 At 18 3 At 15 0 B 10 2 B 14 5 B 13 4 B 29 0 B 25 2 C 12 1 C 30 1 C 34 3 C 12 4 C 11 7 ; run ; /*view dataset*/ proc print data =my_data;
Мы можем использовать PROC MEANS с операторами SKEWNESS и KURTOSIS для расчета асимметрии и эксцесса каждой числовой переменной в наборе данных:
/*calculate skewness and kurtosis for each numeric variable*/ proc means data =my_data SKEWNESS KURTOSIS ; run ;
В выходной таблице отображаются значения асимметрии и эксцесса для каждой числовой переменной в наборе данных:
(1) баллов
- Переменная точек имеет асимметрию 1,009 . Поскольку это значение больше 0, это означает, что хвост находится на правой стороне распределения.
- Переменная Points имеет эксцесс -0,299 . Поскольку это значение меньше 0, это означает, что распределение имеет немного меньше выбросов и меньше экстремальных значений, чем нормальное распределение.
(2) помощь
- Переменная помощи имеет асимметрию 0,304 . Поскольку это значение больше 0, это означает, что хвост находится на правой стороне распределения.
- Переменная поддержки имеет эксцесс -0,782 . Поскольку это значение меньше 0, это означает, что распределение имеет меньше выбросов и меньше экстремальных значений, чем нормальное распределение.
Чтобы визуализировать распределение значений для каждой числовой переменной в наборе данных, вы можете использовать PROC UNIVARIATE для создания гистограмм для точечных и вспомогательных переменных:
/*create histograms for points and assists variables*/
proc univariate data =my_data;
var points assists;
histogram points assists;
run ;
Это создает следующую гистограмму для переменной точек :
И следующая гистограмма для переменной помощи :
Дополнительные ресурсы
В следующих руководствах объясняется, как выполнять другие распространенные задачи в SAS:
Как рассчитать описательную статистику в SAS
Как создать таблицы частот в SAS
Как рассчитать процентили в SAS
Как создавать сводные таблицы в SAS