Comment sélectionner un échantillon aléatoire dans SAS : avec des exemples



Voici les deux manières les plus courantes de sélectionner un échantillon aléatoire simple de lignes à partir d’un ensemble de données dans SAS :

Méthode 1 : sélectionner un échantillon aléatoire en utilisant la taille de l’échantillon

proc surveyselect data=original_data
    out=random_sample
    method=srs /*specify simple random sampling as sampling method*/
    sampsize=3 /*select 3 observations randomly*/
    seed=123; /*set seed to make this example reproducible*/
run;

Méthode 2 : sélectionner un échantillon aléatoire en utilisant la proportion du total des observations

proc surveyselect data=original_data
    out=random_sample
    method=srs /*specify simple random sampling as sampling method*/
    samprate=0.2 /*select 20% of all observations randomly*/
    seed=123; /*set seed to make this example reproducible*/
run;

Les exemples suivants montrent comment utiliser chaque méthode avec l’ensemble de données suivant dans SAS :

/*create dataset*/
data original_data;
    input team $ points rebounds;
    datalines;
Warriors 25 8
Wizards 18 12
Rockets 22 6
Celtics 24 11
Thunder 27 14
Spurs 33 19
Nets 31 20
Mavericks 34 10
Kings 22 11
Pelicans 39 23
;
run;

/*view dataset*/
proc print data=original_data;

Exemple 1 : sélectionner un échantillon aléatoire à l’aide de la taille de l’échantillon

Le code suivant montre comment sélectionner un échantillon aléatoire d’observations à partir de l’ensemble de données en utilisant une taille d’échantillon de n=3 :

/*select random sample*/
proc surveyselect data=original_data
    out=random_sample
    method=srs
    sampsize=3
    seed=123;
run;

/*view random sample*/
proc print data=random_sample;

Nous pouvons voir que trois lignes ont été sélectionnées au hasard dans l’ensemble de données d’origine.

Exemple 2 : Sélectionner un échantillon aléatoire en utilisant la proportion du total des observations

Le code suivant montre comment sélectionner un échantillon aléatoire d’observations dans l’ensemble de données en utilisant la fonction samprate pour spécifier que nous souhaitons que l’échantillon aléatoire représente 20 % de toutes les observations originales :

/*select random sample*/
proc surveyselect data=original_data
    out=random_sample
    method=srs
    samprate=0.2
    seed=123;
run;

/*view random sample*/
proc print data=random_sample;

Nous pouvons voir que 20 % du total des observations (20 % * 10 observations = 2 ) de l’ensemble de données d’origine ont été sélectionnées au hasard pour faire partie de notre échantillon.

Ressources additionnelles

Les didacticiels suivants expliquent comment effectuer d’autres tâches courantes dans SAS :

Comment utiliser le résumé de procédure dans SAS
Comment renommer des variables dans SAS
Comment créer de nouvelles variables dans SAS

Ajouter un commentaire

Votre adresse e-mail ne sera pas publiée. Les champs obligatoires sont indiqués avec *