Excel တွင် outliers များကို အလွယ်တကူရှာနည်း
Outlier သည် ဒေတာအတွဲတစ်ခုရှိ အခြားတန်ဖိုးများနှင့် ပုံမှန်မဟုတ်စွာ ဝေးကွာနေသော စူးစမ်းမှု တစ်ခုဖြစ်သည်။
ခွဲခြမ်းစိတ်ဖြာမှု၏ရလဒ်များကို ထိခိုက်စေနိုင်သောကြောင့် အစွန်းထွက်သူများသည် ပြဿနာရှိနိုင်သည်။
အောက်ဖော်ပြပါ ဒေတာများကို Excel တွင် သတ်မှတ်ထားသော အချက်အလက်များကို အသုံးပြု၍ ပြင်ပအရာများကို ရှာဖွေရန် နည်းလမ်းနှစ်ခုကို သရုပ်ပြပါမည်။
ဆက်စပ်- Excel တွင် Outliers များ မပါဝင်သည့် ပျမ်းမျှအား တွက်ချက်နည်း
နည်းလမ်း 1- ကွာတားအကွာအဝေးကို အသုံးပြုပါ။
interquartile အကွာအဝေး (IQR) သည် ဒေတာအတွဲတစ်ခုတွင် 75th ရာခိုင်နှုန်း (Q3) နှင့် 25th percentile (Q1) အကြား ကွာခြားချက်ဖြစ်သည်။ ၎င်းသည် ပျမ်းမျှတန်ဖိုးများ၏ 50% ခွဲဝေမှုကို တိုင်းတာသည်။
တတိယ quartile (Q3) ထက် 1.5 ဆ သို့မဟုတ် ပထမ quartile (Q1) အောက်ရှိ interquartile အပိုင်းအခြား 1.5 ဆ အထက်ရှိ ကြားခံအကွာအဝေး၏ 1.5 ဆ ဖြစ်ပါက ရှုမြင်ချက်ကို အကြမ်းဖျင်းအဖြစ် သတ်မှတ်နိုင်သည်။
အောက်ဖော်ပြပါပုံသည် Excel တွင် interquartile အကွာအဝေးကို တွက်ချက်နည်းကို ပြသသည် ။
ထို့နောက် ကျွန်ုပ်တို့သည် ဒေတာအတွဲရှိ မည်သည့်အထွက်ကိုမဆို “1” ကို သတ်မှတ်ရန် အထက်ဖော်ပြပါ ဖော်မြူလာကို အသုံးပြုနိုင်ပါသည်။
တန်ဖိုး – 164 – တစ်ခုတည်းသာ ဤဒေတာအတွဲတွင် အကြမ်းဖျင်းဖြစ်သွားသည်ကို ကျွန်ုပ်တို့မြင်ရပါသည်။
နည်းလမ်း 2- z-scores ကိုသုံးပါ။
z-score သည် သင့်အား ပေးထားသောတန်ဖိုးမှ စံသွေဖည်မည်မျှရှိသည်ကို ပြောပြသည်။ z-score ကိုတွက်ချက်ရန် အောက်ပါဖော်မြူလာကို ကျွန်ုပ်တို့အသုံးပြုသည်-
z = (X – μ) / σ
ရွှေ-
- X သည် ဒေတာအကြမ်းတစ်ခုတည်းတန်ဖိုးဖြစ်သည်။
- µ သည် လူဦးရေကို ဆိုလိုသည်။
- σ သည် လူဦးရေစံသွေဖည်သည်။
z-score သည် -3 ထက်နည်းသော သို့မဟုတ် 3 ထက်ကြီးပါက ရှုထောင့်တစ်ခုအား အကြမ်းဖျင်းအဖြစ် သတ်မှတ်နိုင်သည်။
အောက်ဖော်ပြပါပုံသည် Excel ရှိ ဒေတာအတွဲတစ်ခု၏ ပျမ်းမျှနှင့် စံသွေဖည်မှုကို တွက်ချက်နည်းကို ပြသသည်-
ထို့နောက် ဒေတာအတွဲရှိ တစ်ခုချင်းတန်ဖိုးတစ်ခုစီအတွက် z-score ကိုရှာဖွေရန် ပျမ်းမျှနှင့် စံသွေဖည်မှုကို အသုံးပြုနိုင်သည်။
ထို့နောက် z-3 ထက်နည်းသော သို့မဟုတ် 3 ထက်ကြီးသော မည်သည့်တန်ဖိုးကိုမဆို “ 1” ကို သတ်မှတ်နိုင်သည်-
ဤနည်းလမ်းကိုအသုံးပြုခြင်းဖြင့် ဒေတာအတွဲတွင် အစွန်းအထင်းများမရှိသည်ကို ကျွန်ုပ်တို့တွေ့မြင်ရပါသည်။
မှတ်ချက်- တစ်ခါတစ်ရံတွင် z-ရမှတ် 2.5 ကို 3 အစား 3 အစား အသုံးပြုသည်။ ဤကိစ္စတွင်၊ 164 ၏ တစ်ဦးချင်းတန်ဖိုးသည် 2.5 ထက် ပိုကြီးသောကြောင့် z-score သည် သာလွန်သည်ဟု ယူဆနိုင်သည်။
z-score နည်းလမ်းကိုအသုံးပြုသောအခါ၊ သင်မည်သည့် z-score တန်ဖိုးကို သာလွန်သည်ဟုယူဆကြောင်း ဆုံးဖြတ်ရန် သင့်ဆုံးဖြတ်ချက်ကို အသုံးပြုပါ။
အစွန်းအထင်းတွေကို ဘယ်လိုကိုင်တွယ်မလဲ။
သင့်ဒေတာတွင် အကြမ်းဖျင်းတစ်ခုရှိနေပါက၊ သင့်တွင် ရွေးချယ်စရာများစွာရှိသည်-
1. outlier သည် data entry error ၏ရလဒ်မဟုတ်ကြောင်းသေချာပါစေ။
တစ်ခါတစ်ရံတွင် တစ်ဦးတစ်ယောက်သည် ဒေတာကိုသိမ်းဆည်းစဉ်တွင် မှားယွင်းသောဒေတာတန်ဖိုးကို ရိုးရှင်းစွာထည့်သွင်းပါသည်။ အကြမ်းဖျင်းတစ်ခုရှိနေပါက၊ တန်ဖိုးမှန်ကန်ကြောင်းနှင့် ၎င်းသည် အမှားအယွင်းမဟုတ်ကြောင်း ဦးစွာစစ်ဆေးပါ။
2. အကွာအဝေးကို ဖယ်ရှားပါ။
တန်ဖိုးသည် အမှန်တကယ် သာလွန်နေပါက၊ ၎င်းသည် သင်၏ အလုံးစုံခွဲခြမ်းစိတ်ဖြာမှုအပေါ် သိသာထင်ရှားသော သက်ရောက်မှုရှိမည်ဆိုပါက ၎င်းကို ဖယ်ရှားရန် သင်ရွေးချယ်နိုင်ပါသည်။ သာဓကတစ်ခုကို သင်ဖယ်ရှားလိုက်သော သင်၏နောက်ဆုံးအစီရင်ခံစာ သို့မဟုတ် ခွဲခြမ်းစိတ်ဖြာမှုတွင် သေချာစွာဖော်ပြပါ။
3. အကွာအဝေးကို တန်ဖိုးအသစ်တစ်ခု သတ်မှတ်ပါ ။
အကြမ်းဖျင်းသည် ဒေတာထည့်သွင်းမှု အမှားတစ်ခု၏ ရလဒ်ဖြစ်ပါက၊ ၎င်းကို ဒေတာအစု၏ ပျမ်းမျှ သို့မဟုတ် အလယ်တန်း ကဲ့သို့ တန်ဖိုးအသစ်တစ်ခု သတ်မှတ်ရန် သင်ဆုံးဖြတ်နိုင်ပါသည် ။