ဒေတာကို winsorize လုပ်နည်း- အဓိပ္ပါယ်ဖွင့်ဆိုချက်များနှင့် ဥပမာများ


Winsorizing data ဆိုသည်မှာ ဒေတာ၏ သတ်မှတ်ထားသော ရာခိုင်နှုန်းတစ်ခုနှင့် ညီမျှသော လွန်ကဲသော အစွန်းအထင်းများကို သတ်မှတ်ခြင်း ဖြစ်သည်။

ဥပမာအားဖြင့်၊ 90% winsorization သည် 95th percentile ၏အထက်တွင် မှတ်သားမှုများ အားလုံးကို 95th percentile မှတန်ဖိုးနှင့် ညီမျှပြီး 5th percentile အောက်ရှိ မှတ်သားမှုများအားလုံးကို 5th percentile မှ တန်ဖိုးနှင့်ညီမျှသည်။

အမှန်မှာ၊ winsorizing data ဆိုသည်မှာ data set တစ်ခု၏ လွန်ကဲသောတန်ဖိုးများကို လွန်ကဲသောတန်ဖိုးများအဖြစ်သို့ ပြောင်းလဲခြင်းပင်ဖြစ်သည်။

ဥပမာ- Data Winsorize လုပ်နည်း

ကျွန်ုပ်တို့တွင် အောက်ပါဒေတာအစုံရှိသည်ဆိုပါစို့။

 3, 14, 16, 16, 17, 29, 34, 36, 39, 47, 59, 64, 65, 66, 68, 79, 91, 98

ဤဒေတာအတွဲတွင် 90% winsorization ကိုလုပ်ဆောင်ရန် 5th percentile နှင့် 95th percentile ကို ဦးစွာရှာရမည်ဖြစ်ပြီး၊

  • 5th ရာခိုင်နှုန်း- 12.35
  • 95th ရာခိုင်နှုန်း- 92.05

ထို့နောက် ကျွန်ုပ်တို့သည် 12.35 အောက် တန်ဖိုးအားလုံးကို 12.35 နှင့် ညီမျှပြီး 92.05 ထက်ကြီးသော တန်ဖိုးများအားလုံး 92.05 နှင့် ညီမျှသည်-

 12.35, 14, 16, 16, 17, 29, 34, 36, 39, 47, 59, 64, 65, 66, 68, 79, 91, 92.05

ဤကိစ္စတွင်၊ တန်ဖိုး 3 သည် 12.35 ဖြစ်လာပြီး တန်ဖိုး 98 သည် 92.05 ဖြစ်လာသည်။

ဒေတာကို ဘာကြောင့် Winsorize လုပ်တာလဲ။

ပျမ်းမျှနှင့် စံသွေဖည်မှုသည် ဒေတာအစုတစ်ခု၏ အလယ်ဗဟိုတည်နေရာကို တိုင်းတာခြင်းနှင့် ဒေတာအစုတစ်ခုအတွင်း လေ့လာတွေ့ရှိချက်များကို ဖြန့်ဝေခြင်းအတွက် ဘုံနည်းလမ်းနှစ်ခုဖြစ်သည်။

သို့သော်လည်း ဤအစီအမံနှစ်ခုစလုံးသည် လွန်ကဲသော လွန်ကဲသူများ၏ လွှမ်းမိုးမှုကို ခံရနိုင်သည်။ ထို့ကြောင့် ဒေတာကိုအနိုင်ရရှိခြင်းဖြင့် ကျွန်ုပ်တို့အား လွန်ကဲလွန်ကဲသောတန်ဖိုးများကို နည်းပါးသောတန်ဖိုးများနှင့်ညီသော လွန်ကဲအစွန်းထွက်များကို သတ်မှတ်နိုင်စေပါသည်။

၎င်းသည် ဒေတာအတွဲ၏ ပျမ်းမျှနှင့် စံသွေဖည်မှု၏ ပိုမိုတိကျသောအမြင်ကို ရရှိစေတတ်သည်။

ဇီးရွှေကို ဆွတ်ခူးသည်။

outliers များကိုကိုင်တွယ်ရန် နောက်ထပ်ဘုံနည်းလမ်းမှာ ၎င်းတို့ကို dataset မှ ဖယ်ရှားရန် ဖြစ်ပြီး၊ ဆိုလိုသည်မှာ ၎င်းတို့ကို လုံးလုံးဖယ်ရှားခြင်းဖြစ်သည်။

ဥပမာ၊ ယခင်ဒေတာအတွဲကို သုံးသပ်ကြည့်ပါ-

 3, 14, 16, 16, 17, 29, 34, 36, 39, 47, 59, 64, 65, 66, 68, 79, 91, 98

အကယ်၍ ကျွန်ုပ်တို့သည် 5th ရာခိုင်နှုန်းအောက် သို့မဟုတ် 95th ရာခိုင်နှုန်းအထက် တန်ဖိုးများကို လျှော့ချလိုပါက၊ ကျွန်ုပ်တို့သည် တန်ဖိုးများ 3 နှင့် 98 ကို ရိုးရိုးရှင်းရှင်း ဖယ်ရှားပစ်မည်ဖြစ်သည်။

လှီးဖြတ်ခြင်း သို့မဟုတ် winsorization ကို မည်သည့်အချိန်တွင် အသုံးပြုရမည်နည်း။

ချုံ့ခြင်း- အချို့သောတန်ဖိုးများသည် လုံးဝယုတ္တိမတန်ဟုထင်ရသောအခါ၊ ဆိုလိုသည်မှာ ၎င်းတို့သည် ဒေတာထည့်သွင်းမှုအမှား၏ရလဒ်ဖြစ်သည်။

Winsorization- လွန်ကဲသော စူးစမ်းလေ့လာမှုများကို သိမ်းဆည်းထားလိုသော်လည်း ၎င်းတို့ကို စာသားအရ မယူချင်သည့်အခါတွင် ဒေတာကို အနိုင်ရရန် အဓိပ္ပာယ်ရှိပေသည်။

ဒေတာ winsorization နှင့် ပတ်သက်၍ ကြိုတင်ကာကွယ်မှုများ

ဒေတာရယူရန် ဆုံးဖြတ်သည့်အခါတွင် သတိပြုရမည့်အချက်များမှာ-

1. လွန်ကဲလွန်ကဲသော အစွန်းအထင်းများ မရှိပါက၊ ဒေတာကို အနိုင်ရရှိခြင်းဖြင့် အသေးငယ်ဆုံးနှင့် အကြီးဆုံးတန်ဖိုးများကို အနည်းငယ်သာ ပြောင်းလဲပေးပါမည်။ ဤသည်မှာ ယေဘူယျအားဖြင့် ကောင်းမွန်သော အကြံဥာဏ်မဟုတ်သောကြောင့် ကျွန်ုပ်တို့သည် ၎င်းတို့ကို ပြောင်းလဲရန် တစ်ခုတည်းသော ရည်ရွယ်ချက်အတွက် ဒေတာတန်ဖိုးများကို ရိုးရိုးရှင်းရှင်း ပြောင်းလဲနေခြင်းကို ဆိုလိုပါသည်။

2. Outliers များသည် အချက်အလက်ရှိ စိတ်ဝင်စားဖွယ် အစွန်းအထင်းများကို ကိုယ်စားပြုနိုင်သည်။ ထို့ကြောင့်၊ အကြမ်းဖျင်းများကို မတည်းဖြတ်မီ၊ ၎င်းတို့ကို ဖြစ်ပေါ်စေနိုင်သည်များကို သိရန် ၎င်းတို့အား အနီးကပ်လေ့လာကြည့်ရန် သင့်လျော်ပါသည်။

3. ဒေတာစုဆောင်း ပြီးနောက် ဒေတာကို အနိုင်ရရှိ/မရှိကို သင်ဆုံးဖြတ်သင့်သည် သို့မဟုတ် မဆုံးဖြတ်သင့်ပါ။ winsorize ကို မဆုံးဖြတ်ခင်မှာ လွန်ကဲလွန်ကဲတဲ့ အစွန်းအထင်းတွေ ရှိမရှိ ကြည့်သင့်ပါတယ်။ အစွန်းထွက်လွန်ကဲမှုများမရှိပါက၊ winsorization မလိုအပ်ပါ။

ကျူတိုရီရယ်- Excel တွင် ဒေတာကို Winsorize လုပ်ပါ။

Excel တွင် ဒေတာအစုံအလင်ကို winsorize လုပ်နည်း အဆင့်ဆင့် ဥပမာအတွက် ဤသင်ခန်းစာကို ကြည့်ပါ။

မှတ်ချက်တစ်ခုထည့်ပါ။

သင့် email လိပ်စာကို ဖော်ပြမည် မဟုတ်ပါ။ လိုအပ်သော ကွက်လပ်များကို * ဖြင့်မှတ်သားထားသည်