Sas တွင် outliers များကို မည်သို့ခွဲခြားသတ်မှတ်ရမည်နည်း (ဥပမာနှင့်အတူ)


Outlier သည် ဒေတာအတွဲတစ်ခုရှိ အခြားတန်ဖိုးများနှင့် ပုံမှန်မဟုတ်စွာ ဝေးကွာနေသော စူးစမ်းမှုတစ်ခုဖြစ်သည်။ ခွဲခြမ်းစိတ်ဖြာမှု၏ရလဒ်များကို ထိခိုက်စေနိုင်သောကြောင့် အစွန်းထွက်သူများသည် ပြဿနာရှိနိုင်သည်။

ဒေတာအတွဲတစ်ခုရှိ အစွန်းထွက်များကို ခွဲခြားသတ်မှတ်ရန် အသုံးအများဆုံးနည်းလမ်းမှာ interquartile range ကို အသုံးပြုခြင်းဖြစ်သည်။

interquartile အကွာအဝေး (IQR) သည် ဒေတာအတွဲတစ်ခုတွင် 75th ရာခိုင်နှုန်း (Q3) နှင့် 25th percentile (Q1) အကြား ကွာခြားချက်ဖြစ်သည်။ ၎င်းသည် ပျမ်းမျှတန်ဖိုးများ၏ 50% ခွဲဝေမှုကို တိုင်းတာသည်။

တတိယ quartile (Q3) ထက် 1.5 ဆ သို့မဟုတ် ပထမ quartile (Q1) အောက်ရှိ interquartile အပိုင်းအခြား၏ 1.5 ဆ သို့မဟုတ် ကွာတားအကွာအဝေးထက် 1.5 ဆ သို့မဟုတ် ကွာတားအကွာအဝေး၏ အကွာအဝေးတစ်ခုအဖြစ် ယေဘူယျအားဖြင့် ကျွန်ုပ်တို့သည် စူးစမ်းမှုတစ်ခုအဖြစ် သတ်မှတ်ပါသည်။

Outliers = အကဲဖြတ်ချက်များ > Q3 + 1.5*IQR သို့မဟုတ် < Q1 – 1.5*IQR

အောက်ဖော်ပြပါ ဥပမာသည် SAS တွင် ဒေတာအစုံအလင်ရှိ အစွန်းထွက်များကို ခွဲခြားသတ်မှတ်ရန် ဤဖော်မြူလာကို အသုံးပြုနည်းကို ပြသထားသည်။

ဥပမာ- SAS ရှိ Outliers ကို ခွဲခြားသတ်မှတ်ခြင်း။

SAS တွင် အောက်ပါဒေတာအစုံရှိသည် ဟု ယူဆကြပါစို့။

 /*create dataset*/
data original_data;
    input team $points;
    datalines ;
At 18
B24
C26
D 34
E 38
F45
G 48
H 54
I 60
Day 73
K 79
L 85
M 94
No. 98
O 221
P 223
;
run ;

/*view dataset*/
proc print data = original_data;

SAS တွင် outliers များကိုခွဲခြားသတ်မှတ်ရန် အလွယ်ကူဆုံးနည်းလမ်းမှာ စက်ဝိုင်းငယ်များအဖြစ် dataset အတွင်းရှိ outliers များကို သေးငယ်သောစက်ဝိုင်းများအဖြစ် သတ်မှတ်ရန်နှင့် ယခင်ကဖော်ပြထားသောဖော်မြူလာကို အလိုအလျောက်အသုံးပြုသည့် boxplot တစ်ခုကိုဖန်တီးရန်ဖြစ်သည်-

 /*create boxplot to visualize distribution of points*/
ods output sgplot=boxplot_data;
proc sgplot data =original_data;
    vbox points;
run ;

/*view summary of boxplot descriptive statistics*/
proc print data =boxplot_data; 

ကွက်လပ်တွင် ကွက်ကွက်၏ထိပ်အနီးတွင် စက်ဝိုင်းငယ်နှစ်ခုရှိသည်ကို ကျွန်ုပ်တို့တွေ့နိုင်သည်။ ဤအချက်သည် အစွန်းထွက်နှစ်ခုရှိကြောင်း ညွှန်ပြသည်။

boxplot အောက်ရှိဇယားတွင်၊ အထွက်နှစ်ခု၏ အတိအကျတန်ဖိုးများကို ကျွန်ုပ်တို့မြင်နိုင်သည်- 221 နှင့် 223 .

ယခင်ဖော်မြူလာကို အသုံးပြု၍ ဤတန်ဖိုးနှစ်ခုသည် အစွန်းထွက်များဖြစ်ကြောင်း ကျွန်ုပ်တို့ ကိုယ်တိုင်စစ်ဆေးနိုင်သည်-

Outliers = အကဲဖြတ်ချက်များ > Q3 + 1.5*IQR သို့မဟုတ် < Q1 – 1.5*IQR

interquartile အပိုင်းအခြားသည်- Q3 – Q1 = 89.5 – 36 = 53.5 ဖြစ်သည်။

အကွာအဝေးများအတွက် အထက်ကန့်သတ်ချက်မှာ- Q3 + 1.5*IQR = 89.5 + 1.5*53.5 = 169.75 ဖြစ်သည်။

221 နှင့် 223 နှစ်ခုစလုံးသည် ဤတန်ဖိုးထက် ကြီးသောကြောင့် ၎င်းတို့ကို အစွန်းထွက်များအဖြစ် ခွဲခြားထားသည်။

ထို့နောက် ကျွန်ုပ်တို့အလိုရှိပါက ဒေတာအတွဲမှ ဤအထွက်နှစ်ခုကို ဖယ်ရှားရန် အောက်ပါကုဒ်ကို အသုံးပြုနိုင်ပါသည်။

 /*create new dataset with outliers removed*/
data new_data;
    set original_data;
    if points >= 221 then delete;
run ;

/*view new dataset*/
proc print data =new_data; 

အစွန်းနှစ်ခုကို ဖယ်ရှားလိုက်ကြောင်း သတိပြုပါ။

ထပ်လောင်းအရင်းအမြစ်များ

အောက်ဖော်ပြပါ သင်ခန်းစာများသည် SAS တွင် အခြားဘုံအလုပ်များကို မည်သို့လုပ်ဆောင်ရမည်ကို ရှင်းပြသည်-

SAS တွင်လုပ်ထုံးလုပ်နည်းအကျဉ်းချုပ်ကိုအသုံးပြုနည်း
SAS တွင် Proc Tabulate ကိုအသုံးပြုနည်း
SAS တွင် ဆက်စပ်မှုကို တွက်ချက်နည်း
SAS တွင် ကြိမ်နှုန်းဇယားများ ဖန်တီးနည်း
ပျောက်ဆုံးနေသောတန်ဖိုးများကို SAS တွင် သုညဖြင့် အစားထိုးနည်း

မှတ်ချက်တစ်ခုထည့်ပါ။

သင့် email လိပ်စာကို ဖော်ပြမည် မဟုတ်ပါ။ လိုအပ်သော ကွက်လပ်များကို * ဖြင့်မှတ်သားထားသည်