ဒေတာကို winsorize လုပ်နည်း- အဓိပ္ပါယ်ဖွင့်ဆိုချက်များနှင့် ဥပမာများ
Winsorizing data ဆိုသည်မှာ ဒေတာ၏ သတ်မှတ်ထားသော ရာခိုင်နှုန်းတစ်ခုနှင့် ညီမျှသော လွန်ကဲသော အစွန်းအထင်းများကို သတ်မှတ်ခြင်း ဖြစ်သည်။
ဥပမာအားဖြင့်၊ 90% winsorization သည် 95th percentile ၏အထက်တွင် မှတ်သားမှုများ အားလုံးကို 95th percentile မှတန်ဖိုးနှင့် ညီမျှပြီး 5th percentile အောက်ရှိ မှတ်သားမှုများအားလုံးကို 5th percentile မှ တန်ဖိုးနှင့်ညီမျှသည်။
အမှန်မှာ၊ winsorizing data ဆိုသည်မှာ data set တစ်ခု၏ လွန်ကဲသောတန်ဖိုးများကို လွန်ကဲသောတန်ဖိုးများအဖြစ်သို့ ပြောင်းလဲခြင်းပင်ဖြစ်သည်။
ဥပမာ- Data Winsorize လုပ်နည်း
ကျွန်ုပ်တို့တွင် အောက်ပါဒေတာအစုံရှိသည်ဆိုပါစို့။
3, 14, 16, 16, 17, 29, 34, 36, 39, 47, 59, 64, 65, 66, 68, 79, 91, 98
ဤဒေတာအတွဲတွင် 90% winsorization ကိုလုပ်ဆောင်ရန် 5th percentile နှင့် 95th percentile ကို ဦးစွာရှာရမည်ဖြစ်ပြီး၊
- 5th ရာခိုင်နှုန်း- 12.35
- 95th ရာခိုင်နှုန်း- 92.05
ထို့နောက် ကျွန်ုပ်တို့သည် 12.35 အောက် တန်ဖိုးအားလုံးကို 12.35 နှင့် ညီမျှပြီး 92.05 ထက်ကြီးသော တန်ဖိုးများအားလုံး 92.05 နှင့် ညီမျှသည်-
12.35, 14, 16, 16, 17, 29, 34, 36, 39, 47, 59, 64, 65, 66, 68, 79, 91, 92.05
ဤကိစ္စတွင်၊ တန်ဖိုး 3 သည် 12.35 ဖြစ်လာပြီး တန်ဖိုး 98 သည် 92.05 ဖြစ်လာသည်။
ဒေတာကို ဘာကြောင့် Winsorize လုပ်တာလဲ။
ပျမ်းမျှနှင့် စံသွေဖည်မှုသည် ဒေတာအစုတစ်ခု၏ အလယ်ဗဟိုတည်နေရာကို တိုင်းတာခြင်းနှင့် ဒေတာအစုတစ်ခုအတွင်း လေ့လာတွေ့ရှိချက်များကို ဖြန့်ဝေခြင်းအတွက် ဘုံနည်းလမ်းနှစ်ခုဖြစ်သည်။
သို့သော်လည်း ဤအစီအမံနှစ်ခုစလုံးသည် လွန်ကဲသော လွန်ကဲသူများ၏ လွှမ်းမိုးမှုကို ခံရနိုင်သည်။ ထို့ကြောင့် ဒေတာကိုအနိုင်ရရှိခြင်းဖြင့် ကျွန်ုပ်တို့အား လွန်ကဲလွန်ကဲသောတန်ဖိုးများကို နည်းပါးသောတန်ဖိုးများနှင့်ညီသော လွန်ကဲအစွန်းထွက်များကို သတ်မှတ်နိုင်စေပါသည်။
၎င်းသည် ဒေတာအတွဲ၏ ပျမ်းမျှနှင့် စံသွေဖည်မှု၏ ပိုမိုတိကျသောအမြင်ကို ရရှိစေတတ်သည်။
ဇီးရွှေကို ဆွတ်ခူးသည်။
outliers များကိုကိုင်တွယ်ရန် နောက်ထပ်ဘုံနည်းလမ်းမှာ ၎င်းတို့ကို dataset မှ ဖယ်ရှားရန် ဖြစ်ပြီး၊ ဆိုလိုသည်မှာ ၎င်းတို့ကို လုံးလုံးဖယ်ရှားခြင်းဖြစ်သည်။
ဥပမာ၊ ယခင်ဒေတာအတွဲကို သုံးသပ်ကြည့်ပါ-
3, 14, 16, 16, 17, 29, 34, 36, 39, 47, 59, 64, 65, 66, 68, 79, 91, 98
အကယ်၍ ကျွန်ုပ်တို့သည် 5th ရာခိုင်နှုန်းအောက် သို့မဟုတ် 95th ရာခိုင်နှုန်းအထက် တန်ဖိုးများကို လျှော့ချလိုပါက၊ ကျွန်ုပ်တို့သည် တန်ဖိုးများ 3 နှင့် 98 ကို ရိုးရိုးရှင်းရှင်း ဖယ်ရှားပစ်မည်ဖြစ်သည်။
လှီးဖြတ်ခြင်း သို့မဟုတ် winsorization ကို မည်သည့်အချိန်တွင် အသုံးပြုရမည်နည်း။
ချုံ့ခြင်း- အချို့သောတန်ဖိုးများသည် လုံးဝယုတ္တိမတန်ဟုထင်ရသောအခါ၊ ဆိုလိုသည်မှာ ၎င်းတို့သည် ဒေတာထည့်သွင်းမှုအမှား၏ရလဒ်ဖြစ်သည်။
Winsorization- လွန်ကဲသော စူးစမ်းလေ့လာမှုများကို သိမ်းဆည်းထားလိုသော်လည်း ၎င်းတို့ကို စာသားအရ မယူချင်သည့်အခါတွင် ဒေတာကို အနိုင်ရရန် အဓိပ္ပာယ်ရှိပေသည်။
ဒေတာ winsorization နှင့် ပတ်သက်၍ ကြိုတင်ကာကွယ်မှုများ
ဒေတာရယူရန် ဆုံးဖြတ်သည့်အခါတွင် သတိပြုရမည့်အချက်များမှာ-
1. လွန်ကဲလွန်ကဲသော အစွန်းအထင်းများ မရှိပါက၊ ဒေတာကို အနိုင်ရရှိခြင်းဖြင့် အသေးငယ်ဆုံးနှင့် အကြီးဆုံးတန်ဖိုးများကို အနည်းငယ်သာ ပြောင်းလဲပေးပါမည်။ ဤသည်မှာ ယေဘူယျအားဖြင့် ကောင်းမွန်သော အကြံဥာဏ်မဟုတ်သောကြောင့် ကျွန်ုပ်တို့သည် ၎င်းတို့ကို ပြောင်းလဲရန် တစ်ခုတည်းသော ရည်ရွယ်ချက်အတွက် ဒေတာတန်ဖိုးများကို ရိုးရိုးရှင်းရှင်း ပြောင်းလဲနေခြင်းကို ဆိုလိုပါသည်။
2. Outliers များသည် အချက်အလက်ရှိ စိတ်ဝင်စားဖွယ် အစွန်းအထင်းများကို ကိုယ်စားပြုနိုင်သည်။ ထို့ကြောင့်၊ အကြမ်းဖျင်းများကို မတည်းဖြတ်မီ၊ ၎င်းတို့ကို ဖြစ်ပေါ်စေနိုင်သည်များကို သိရန် ၎င်းတို့အား အနီးကပ်လေ့လာကြည့်ရန် သင့်လျော်ပါသည်။
3. ဒေတာစုဆောင်း ပြီးနောက် ဒေတာကို အနိုင်ရရှိ/မရှိကို သင်ဆုံးဖြတ်သင့်သည် သို့မဟုတ် မဆုံးဖြတ်သင့်ပါ။ winsorize ကို မဆုံးဖြတ်ခင်မှာ လွန်ကဲလွန်ကဲတဲ့ အစွန်းအထင်းတွေ ရှိမရှိ ကြည့်သင့်ပါတယ်။ အစွန်းထွက်လွန်ကဲမှုများမရှိပါက၊ winsorization မလိုအပ်ပါ။
ကျူတိုရီရယ်- Excel တွင် ဒေတာကို Winsorize လုပ်ပါ။
Excel တွင် ဒေတာအစုံအလင်ကို winsorize လုပ်နည်း အဆင့်ဆင့် ဥပမာအတွက် ဤသင်ခန်းစာကို ကြည့်ပါ။