Atypical တန်ဖိုးများ (outliers)၊

ဤဆောင်းပါးတွင် အစွန်းထွက်များသည် မည်ကဲ့သို့ တွက်ချက်သည်ကို ရှင်းပြထားသည်။ ထို့အပြင်၊ သင်သည် အွန်လိုင်းဂဏန်းတွက်စက်ဖြင့် မည်သည့်ဒေတာနမူနာအတွက်မဆို အစွန်းထွက်များကို တွက်ချက်နိုင်သည်။

အစွန်းအထင်းတွေက ဘာတွေလဲ။

ကိန်းဂဏန်းစာရင်းဇယားများတွင်၊ outliers သို့မဟုတ် outliers သို့မဟုတ် outliers ဟုလည်းခေါ်သည်၊ သည် ကျန်ဒေတာအစုံနှင့်သိသိသာသာကွာခြားသည့်တန်ဖိုးများဖြစ်သည်။ တစ်နည်းဆိုရသော် ပြင်ပတန်ဖိုးသည် နမူနာရှိ အခြားတန်ဖိုးများနှင့် အလွန်ကွာခြားသည့် ပုံမှန်မဟုတ်သော တန်ဖိုးတစ်ခုဖြစ်သည်။

ကိန်းဂဏန်းအစီအမံများ တွက်ချက်ရာတွင် သိသာထင်ရှားစွာ သက်ရောက်မှုရှိနိုင်သောကြောင့် နမူနာတစ်ခုတွင် အကွာအဝေးများကို ခွဲခြားသတ်မှတ်ရန် အရေးကြီးပါသည်။

ဥပမာအားဖြင့်၊ အကယ်၍ ကျွန်ုပ်တို့တွင် ဒေတာစီးရီး [1၊ 3၊ 5၊ 2၊ 79၊ 4၊ 8၊ 6] ရှိပါက၊ နံပါတ် 79 သည် သိသိသာသာ အကွာအဝေးဖြစ်သည်။ ၎င်း၏တန်ဖိုးသည် ကျန်ဒေတာများထက် အလွန်မြင့်မားသောကြောင့်ဖြစ်သည်။ ဤကိစ္စတွင်၊ အစွန်းပိုင်းအပါအဝင် ပျမ်းမျှသည် 13.5 ဖြစ်ပြီး၊ အစွန်းမပါသောပျမ်းမျှမှာ 4.14 ဖြစ်သည်။ သင်တွေ့မြင်ရသည့်အတိုင်း၊ အကြမ်းဖျင်းတစ်ခုတည်းသည် ကိန်းဂဏန်းတိုင်းတာခြင်းရလဒ်ကို သိသိသာသာလွှမ်းမိုးနေပြီဖြစ်သည်။

 1, \ 3, \ 5, \ 2, \ 79, \ 4, \ 8, \ 6 \quad \color{orange}\bm{\longrightarrow}\color{black}\quad \text{Valor at\'ipico: } 79

ပုံမှန်အားဖြင့်၊ ၎င်းတို့သည် ကျန်ဒေတာများနှင့် သီးခြားခွဲထုတ်ထားသောကြောင့် အစွန်းကွက်များကို အလွယ်တကူ ခွဲခြားနိုင်သည်။ အောက်ဖော်ပြပါ scatterplot ကိုကြည့်ပါ၊ outlier သည် အခြားတန်ဖိုးများနှင့် အလွန်ကွဲကွာနေသည်-

အစွန်းအထင်းများ သို့မဟုတ် အခြားအရာများကို ခွဲခြမ်းစိပ်ဖြာခြင်း။

👉 မည်သည့်ဒေတာအတွဲအတွက်မဆို အစွန်းထွက်များကို ရှာဖွေရန် အောက်ပါ ဂဏန်းပေါင်းစက်ကို အသုံးပြုနိုင်သည်။

အစွန်းအထင်းတွေကို ဘယ်လိုတွက်မလဲ။

ဒေတာနမူနာမှ အစွန်းထွက်များကို တွက်ချက်ရန်၊ အောက်ပါအဆင့်များကို လိုက်နာရပါမည်-

  1. ဒေတာအတွဲ၏ လေးပုံတစ်ပုံကို တွက်ချက်ပါ။
  2. ဒေတာ၏ ကြားကာလအပိုင်းအခြားကို တွက်ချက်ပါ။
  3. Atypical တန်ဖိုးများ (outliers) သည် အောက်ပါအခြေအနေများထဲမှ တစ်ခုနှင့် ကိုက်ညီသော တန်ဖိုးများကို ထည့်သွင်းစဉ်းစားပါမည်-

အောက်ဖော်ပြပါ ကွက်ကွက် ကွက်တွင်၊ ဂရပ်ဖစ်ဖြင့် ကိုယ်စားပြုထားသော ဤစံနှုန်းအရ အထွက်နှစ်ခုကို သင်တွေ့မြင်နိုင်သည်-

boxplot outliers

မှတ်ချက်- က န့်သတ်ချက်များထက်ကျော်လွန်၍ ဒေတာများကို ကျော်လွန်ဆုံးဖြတ်ရန် စံသတ်မှတ်ချက်များစွာရှိကြောင်း မှတ်သားထားပါ။ ဤဆောင်းပါးတွင်၊ Tukey စမ်းသပ်မှုစံနှုန်းကို ကိုးကားချက်အဖြစ် ယူထားသောကြောင့် ၎င်းသည် အသုံးအများဆုံးဖြစ်သည်။

အကြမ်းဖျင်းဥပမာ

outlier ၏ အဓိပ္ပါယ်ဖွင့်ဆိုချက်ကို ထည့်သွင်းစဉ်းစားခြင်းဖြင့်၊ ဤအပိုင်းတွင် data series တစ်ခုတွင် outliers များကို မည်သို့ခွဲခြားသတ်မှတ်ရမည်ကို လက်တွေ့နမူနာတစ်ခုတွေ့ရပါမည်။

  • အောက်ဖော်ပြပါ ကိန်းဂဏန်း အချက်အလက်အစုံမှ အစွန်းထွက်များ သို့မဟုတ် အစွန်းများကို တွက်ချက်ပါ။

ပထမဦးစွာ၊ ကျွန်ုပ်တို့သည် dataset ၏ လေးပုံသုံးပုံကို တွက်ချက်သည်-

Q_1=4,06

Q_2=4,38

Q_3=4,66

quartile သုံးခုကို ရှာပြီးသည်နှင့် quartile 3 အနှုတ် quartile 1 ကို နုတ်ခြင်းဖြင့် interquartile အပိုင်းအခြားကို ရှာသည် ။

IQR=Q_3-Q_1=4,66-4,06=0,6

ယခု ကျွန်ုပ်တို့သည် ပြင်ပမှသတ်မှတ်ထားသော ကန့်သတ်ချက်များကို တွက်ချက်ပါသည်။ ဒါကိုလုပ်ဖို့၊ အထက်မှာ ရှင်းပြထားတဲ့ ဖော်မြူလာတွေကို သုံးပါတယ်။

Q_1-1,5\cdot IQR=4,06-1,5\cdot 0,6=3,16

Q_3+1,5\cdot IQR=4,66+1,5\cdot 0,6=5,56

ထို့ကြောင့် မည်သည့်တန်ဖိုးများသည် 3.16 ထက်နည်းပါက၊ ၎င်းသည် အစွန်းထွက်တစ်ခုဖြစ်သည်။ အလားတူ၊ တန်ဖိုးသည် 5.56 ထက် ကြီးပါက၊ ၎င်းသည် အစွန်းထွက်တစ်ခုလည်းဖြစ်သည်။

နိဂုံးချုပ်အားဖြင့်၊ ဤအခြေအနေတွင် ကျွန်ုပ်တို့တွင် 3.02 သည် 3.16 ထက်နည်းသောကြောင့် 5.71 သည် 5.56 ထက် ကြီးသောကြောင့်ဖြစ်သည်။

\text{Valores at\'ipicos} =\Bigl\{3,02 \ ; \ 5,71\Bigr\}

Outlier ဂဏန်းပေါင်းစက်

ကိန်းဂဏန်းအချက်အလတ်များကို တွက်ချက်ရန် အောက်ပါဂဏန်းပေါင်းစက်တွင် သတ်မှတ်ကိန်းဂဏန်းအချက်အလက်ကို ထည့်သွင်းပါ။ ဒေတာကို နေရာလွတ်တစ်ခုဖြင့် ပိုင်းခြားထားရမည်ဖြစ်ပြီး ဒဿမပိုင်းခြားခြင်းအဖြစ် ကာလကို အသုံးပြု၍ ထည့်သွင်းရပါမည်။

လွန်ကဲခြင်း၏အကြောင်းရင်းများ

အပြင်ထွက်ခြင်း၏ ဖြစ်နိုင်ချေ အကြောင်းရင်းများစွာ ရှိပြီး ၎င်းတို့အနက် အဖြစ်အများဆုံးမှာ-

  • တိုင်းတာမှုပြုလုပ်ရာတွင် အသုံးပြုသည့်ကိရိယာသည် ပြိုကျပျက်စီးသွားခြင်း သို့မဟုတ် မတော်တဆမှုတစ်ခု ဖြစ်ပွားခဲ့သည်။
  • ပုံမှန်မဟုတ်သော အကြောင်းအရင်းကြောင့် တိုင်းတာထားသော အစိတ်အပိုင်းတွင် ချို့ယွင်းချက်ရှိသည်။
  • ဒေတာပေးပို့ခြင်း သို့မဟုတ် ကူးယူခြင်းတွင် အမှားအယွင်းတစ်ခု ဖြစ်ပွားခဲ့သည်။
  • လူသားအမှားတစ်ခုရှိခဲ့သည်။ ကြိုတင်သတိထားမှုများ မည်သို့ပင်ရှိစေကာမူ လူသားအမှားများသည် လုံးဝရှောင်လွှဲ၍မရနိုင်သောကြောင့် ပုံမှန်မဟုတ်သောတန်ဖိုးများ ဆက်လက်တည်ရှိနေနိုင်ပါသည်။

ဒါတွေဟာ အဖြစ်များဆုံး အကြောင်းရင်းတွေ ဖြစ်ပေမယ့် အကြောင်းရင်းက ဘာမဆို ဖြစ်နိုင်တယ်ဆိုတာ သိသာပါတယ်။ အလားတူ၊ စာရင်းအင်းလေ့လာမှုကို အကဲခတ်များစွာဖြင့် ဆောင်ရွက်သည့်အခါ အချို့သော အစွန်းအထင်းများသည် ပုံမှန်ဖြစ်တတ်သည်ဟု ထည့်သွင်းစဉ်းစားရမည်ဖြစ်သည်။

အစွန်းကွက်တွေနဲ့ ဘာလုပ်ရမလဲ

အကြမ်းဖျင်းတွေ့တဲ့အခါ ယေဘူယျမေးခွန်းက အဲဒါကို ဘာလုပ်သင့်လဲ။ နမူနာမှ အစွန်းများကို ဖယ်ရှားသင့်ပါသလား။

၎င်းတို့သည် ကျန်အစုအဝေးများနှင့်မတူညီသော ဒေတာဖြစ်သောကြောင့် အကြမ်းဖျဉ်းများကို အမြဲတမ်းဖယ်ရှားသင့်သည်ဟု ယုံကြည်ပါသည်။ သို့သော်၊ အချို့သော ကိန်းဂဏန်းအစီအမံများ၏ ရလဒ်များကို လွန်ကဲစွာ ထိခိုက်စေသော်လည်း၊ ၎င်းတို့ကို အမြဲတမ်း ဖယ်ရှားပစ်ရမည်ဟု မဆိုလိုပါ။

ယေဘူယျအားဖြင့်၊ ကွဲလွဲမှု၏အကြောင်းရင်းအမှန်မှာ တရားမျှတကြောင်း ကျွန်ုပ်တို့သိမှသာ အစွန်းကွက်များကို ဖယ်ရှားသင့် ပြီး ထို့ကြောင့် ဤအစွန်းထွက်များသည် လေ့လာနေသည့်အရာများနှင့် မကိုက်ညီသော မှတ်သားမှုများကို ဖယ်ရှားသင့်ပါသည်။

လွန်ကဲတန်ဖိုးများသည် စာရင်းအင်းမက်ထရစ်များကို ပိုမိုအကျိုးသက်ရောက်သောကြောင့် ၎င်းသည် အထူးအရေးကြီးပါသည်။

ဥပမာအားဖြင့်၊ ထုတ်ကုန်တစ်ခု၏ အစိတ်အပိုင်းတစ်ခု၏ အရှည်ကို အရည်အသွေးထိန်းချုပ်ရန်အတွက် တိုင်းတာပါက၊ အခြားသော ထုတ်ကုန်အမျိုးအစား ရုတ်တရက်ပေါ်လာပြီး တူညီသောအစိတ်အပိုင်းကို တိုင်းတာပါက၊ တိုင်းတာသည့်တန်ဖိုးသည် ယခင်ထုတ်ကုန်များနှင့် အလွန်ကွာခြားမည်ဖြစ်ပြီး ဖြစ်နိုင်ချေရှိသည် သာလွန်သူဖြစ်ပါစေ။ ဤကိစ္စတွင်၊ ၎င်း၏အကြောင်းရင်းကို သိရှိပြီး တိုင်းတာသည့်ဒေတာသည် ခွဲခြမ်းစိတ်ဖြာရန် ရည်ရွယ်ထားသည့် လူဦးရေ၏မပါဝင်ကြောင်း သိရှိသောကြောင့် အကြမ်းဖျင်းကို ပယ်ချနိုင်သည်။

မှတ်ချက်တစ်ခုထည့်ပါ။

သင့် email လိပ်စာကို ဖော်ပြမည် မဟုတ်ပါ။ လိုအပ်သော ကွက်လပ်များကို * ဖြင့်မှတ်သားထားသည်