Как выбрать случайную выборку в sas: с примерами
Вот два наиболее распространенных способа выбора простой случайной выборки строк из набора данных в SAS:
Метод 1: выберите случайную выборку, используя размер выборки
proc surveyselect data =original_data
out =random_sample
method =srs /*specify simple random sampling as sampling method*/
sampsize =3 /*select 3 observations randomly*/
seed =123; /*set seed to make this example reproducible*/
run ;
Метод 2: выберите случайную выборку, используя долю от общего числа наблюдений.
proc surveyselect data =original_data
out =random_sample
method =srs /*specify simple random sampling as sampling method*/
samprate =0.2 /*select 20% of all observations randomly*/
seed =123; /*set seed to make this example reproducible*/
run ;
В следующих примерах показано, как использовать каждый метод со следующим набором данных в SAS:
/*create dataset*/
data original_data;
input team $pointsrebounds;
datalines ;
Warriors 25 8
Wizards 18 12
Rockets 22 6
Celtics 24 11
Thunder 27 14
Spurs 33 19
Nets 31 20
Mavericks 34 10
Kings 22 11
Pelicans 39 23
;
run ;
/*view dataset*/
proc print data = original_data;
Пример 1. Выбор случайной выборки с использованием размера выборки
Следующий код показывает, как выбрать случайную выборку наблюдений из набора данных, используя размер выборки n = 3:
/*select random sample*/
proc surveyselect data =original_data
out =random_sample
method =srs
sampsize =3
seed =123;
run ;
/*view random sample*/
proc print data =random_sample;
Мы видим, что три строки были случайно выбраны из исходного набора данных.
Пример 2. Выберите случайную выборку, используя долю от общего числа наблюдений.
Следующий код показывает, как выбрать случайную выборку наблюдений из набора данных с помощью функции samprate , чтобы указать, что мы хотим, чтобы случайная выборка представляла 20% всех исходных наблюдений:
/*select random sample*/
proc surveyselect data =original_data
out =random_sample
method =srs
samprate =0.2
seed =123;
run ;
/*view random sample*/
proc print data =random_sample;
Мы видим, что 20% от общего числа наблюдений (20% * 10 наблюдений = 2 ) из исходного набора данных были случайно выбраны для включения в нашу выборку.
Дополнительные ресурсы
В следующих руководствах объясняется, как выполнять другие распространенные задачи в SAS:
Как использовать сводку процедур в SAS
Как переименовать переменные в SAS
Как создать новые переменные в SAS