ပြီးပြည့်စုံသောလမ်းညွှန်- ဒေတာရှိ outliers များကို မည်သည့်အချိန်တွင် ဖယ်ရှားရမည်နည်း။
Outlier သည် ဒေတာအတွဲတစ်ခုရှိ အခြားတန်ဖိုးများနှင့် ပုံမှန်မဟုတ်စွာ ဝေးကွာနေသော စူးစမ်းမှု တစ်ခုဖြစ်သည်။
ခွဲခြမ်းစိတ်ဖြာမှု၏ရလဒ်များကို ထိခိုက်စေနိုင်သောကြောင့် အစွန်းထွက်သူများသည် ပြဿနာရှိနိုင်သည်။
သို့သော်၊ ၎င်းတို့သည် ပုံမှန်မဟုတ်သော အခြေအနေများ သို့မဟုတ် ရှားပါးသော စရိုက်လက္ခဏာများရှိသည့် လူတစ်ဦးချင်းကို ဖော်ထုတ်နိုင်သောကြောင့် ၎င်းတို့သည် သင်လေ့လာထားသည့် ဒေတာများကို ထိုးထွင်းသိမြင်နိုင်စေပါသည်။
မည်သည့် ခွဲခြမ်းစိတ်ဖြာမှုတွင်မဆို၊ အစွန်းကွက်များကို ဖယ်ရှားရန် သို့မဟုတ် ထားရှိရန် ဆုံးဖြတ်ရပါမည်။
ကံကောင်းထောက်မစွာ၊ သင်သည် ဆုံးဖြတ်ချက်ချရာတွင် အထောက်အကူဖြစ်စေရန် အောက်ပါ flowchart ကို အသုံးပြုနိုင်ပါသည်။
flowchart ထဲက မေးခွန်းတစ်ခုစီကို အနီးကပ်လေ့လာကြည့်ရအောင်။
သာလွန်သည် ဒေတာထည့်သွင်းမှုအမှား၏ရလဒ်ဖြစ်ပါသလား။
တစ်ခါတစ်ရံတွင် ဒေတာအတွဲတစ်ခုရှိ အစွန်းထွက်များသည် ဒေတာထည့်သွင်းမှုအမှားတစ်ခု၏ ရလဒ်ဖြစ်သည်။
ဥပမာအားဖြင့်၊ ဇီဝဗေဒပညာရှင်သည် အပင်မျိုးစိတ်တစ်ခု၏ အမြင့်ဆိုင်ရာ အချက်အလက်များကို စုဆောင်းပြီး အောက်ပါအချက်အလက်များကို မှတ်တမ်းတင်သည်ဆိုပါစို့။
- ၆.၈၃ လက်မ
- ၇.၅၁ လက်မ
- ၅.၂၁ လက်မ
- ၅.၈၄ လက်မ
- ၇.၈၃ လက်မ
- ၇၅၅ လက်မ
- ၆.၅၃ လက်မ
- ၆.၃၁ လက်မ
- ၅.၉၁ လက်မ
ထင်ရှားသည်မှာ 755 လက်မအတွက် ဝင်ခွင့်သည် သာလွန်ကောင်းမွန်ပြီး ဒေတာထည့်သွင်းမှုအမှားတစ်ခု၏ ရလဒ်ဖြစ်ဖွယ်ရှိသည်။ အမြင့် 7.55 လက်မ ဖြစ်သင့်သည်ထက် ပိုများသော်လည်း ၎င်းကို မှားယွင်းစွာ ထည့်သွင်းထားသည်။
ဇီဝဗေဒပညာရှင်သည် ဤလေ့လာချက်ကို ထိန်းသိမ်းထားပြီး နမူနာရှိ အပင်များ၏ ပျမ်းမျှအမြင့်ကဲ့သို့ သရုပ်ဖော်ကိန်းဂဏန်းကို တွက်ချက်ပါက၊ ဤလေ့လာချက်သည် ရလဒ်များကို လွန်စွာလှည့်စားနိုင်ပြီး စစ်မှန်သော ပျမ်းမျှအပင်၏ အမြင့်ကို တိကျစွာပုံမဖော်နိုင်ပါ။
ဤအခြေအနေတွင် (ဤကဲ့သို့သော အခြေအနေမျိုး) တွင် ၎င်းသည် အမှားအယွင်းတစ်ခုဖြစ်ပြီး ခွဲခြမ်းစိတ်ဖြာမှုတွင် တရားဝင်ဒေတာအချက်မဟုတ်သောကြောင့် ဤအကြမ်းဖျင်းကို ဒေတာအစုမှ ဖယ်ရှားခြင်းသည် အဓိပ္ပာယ်ရှိလှပါသည်။
အကြမ်းဖျင်းသည် ခွဲခြမ်းစိတ်ဖြာမှုရလဒ်များကို သိသိသာသာ သက်ရောက်မှုရှိပါသလား။
အကယ်၍ စူးစမ်းမှုတစ်ခုသည် စစ်မှန်သောအစွန်းထွက်တစ်ခုဖြစ်ပြီး ဒေတာထည့်သွင်းမှုအမှားတစ်ခု၏ရလဒ်မဟုတ်ပါက၊ ခွဲခြမ်းစိတ်ဖြာမှုရလဒ်အပေါ် သက်ရောက်မှုရှိမရှိ ဆန်းစစ်ရန်လိုသည်။
ဥပမာအားဖြင့်၊ ဇီဝဗေဒပညာရှင်တစ်ဦးသည် ဓာတ်မြေသြဇာနှင့် အပင်အမြင့်ကြား ဆက်နွယ်မှုကို လေ့လာနေသည်ဆိုပါစို့။ သူမသည် တုံ့ပြန်မှုကိန်း ရှင်အဖြစ် ဓာတ်မြေသြဇာကို ခန့်မှန်းပေးသည့်ကိန်းရှင်နှင့် အပင်အမြင့်အဖြစ် အသုံးပြုကာ ရိုးရှင်းသောမျဉ်းဖြောင့်ဆုတ်ယုတ်မှု ပုံစံကို အံဝင်ခွင်ကျဖြစ်စေလိုသည်။
၎င်းသည် မတူညီသော စက်ရုံ ၁၂ ရုံအတွက် အောက်ပါအချက်အလက်များကို စုဆောင်းပါသည်။
နောက်ဆုံးလေ့လာချက်သည် လွဲမှားနေသည်မှာ ထင်ရှားသည်။
သို့သော်၊ ဤဒေတာအတွဲကို မြင်ယောင်ရန် အပိုင်းအစတစ်ခုကို ဖန်တီးပါက၊ ကျွန်ုပ်တို့သည် အစွန်းထွက်ခြင်းတွင် ပါဝင်သည်ဖြစ်စေ ဆုတ်ယုတ်မှုမျဉ်းသည် များစွာပြောင်းလဲမည်မဟုတ်ကြောင်း ကျွန်ုပ်တို့ တွေ့မြင်နိုင်သည်-
ဤအခြေအနေတွင်၊ outlier သည် linear regression model ၏ယူဆချက်များအား အမှန်တကယ်ချိုးဖောက်ခြင်းမရှိသောကြောင့် ၎င်းကို dataset တွင်သိမ်းထားနိုင်မည်ဖြစ်သည်။
သို့သော်၊ ကျွန်ုပ်တို့တွင် ဒေတာတွင် အောက်ပါအကြမ်းဖျင်းရှိသည်ဆိုပါစို့။
သိသာထင်ရှားသည်၊ ဤအစွန်းထွက်မှုသည် ဆုတ်ယုတ်မှုမျဉ်းအား သိသိသာသာအကျိုးသက်ရောက်သည်၊ ထို့ကြောင့် ကျွန်ုပ်တို့သည် ဆုတ်ယုတ်မှုပုံစံတစ်ခုအား outlier နှင့် တစ်ခုမဟုတ်တစ်ခုနှင့် အံဝင်ခွင်ကျဖြစ်စေပြီးနောက် ဆုတ်ယုတ်မှုပုံစံနှစ်ခုလုံး၏ရလဒ်များကို အစီရင်ခံနိုင်သည်။
အကြမ်းဖျင်းသည် ခွဲခြမ်းစိတ်ဖြာမှုတွင် ပြုလုပ်ထားသော ယူဆချက်များကို သက်ရောက်မှုရှိပါသလား။
အကယ်၍ outlier သည် data entry error ၏ရလဒ်မဟုတ်ပဲ ခွဲခြမ်းစိတ်ဖြာမှု၏ရလဒ်များကို သိသိသာသာထိခိုက်စေခြင်းမရှိပါက၊ outlier သည် ခွဲခြမ်းစိတ်ဖြာမှုတစ်ခုတွင်ပြုလုပ်ထားသော hypotheses များအပေါ်သက်ရောက်မှုရှိ၊ မရှိ မေးမြန်းရပါမည်။ ခွဲခြမ်းစိတ်ဖြာခြင်း။
ယူဆချက်တွေကို မထိခိုက်စေဘူးဆိုရင် ဒေတာထဲမှာပဲ သိမ်းထားနိုင်ပါတယ်။
သို့သော်၊ ၎င်းသည် ယူဆချက်များကို အကျိုးသက်ရောက်ပါက၊ ကျွန်ုပ်တို့တွင် ရွေးချယ်စရာများစွာရှိသည်-
1. ၎င်းကိုဖယ်ရှားပါ။ ကျွန်ုပ်တို့သည် ၎င်းကို ဒေတာများမှ ဖယ်ရှားပြီး ရလဒ်များကို သတင်းပို့သည့်အခါတွင် မှတ်စုတစ်ခု ပြုလုပ်နိုင်ပါသည်။
2. ဒေတာကို အသွင်ပြောင်းပါ။ outlier ကို ဖယ်ရှားမည့်အစား၊ ဥပမာအားဖြင့် data အတွင်းရှိ တန်ဖိုးများအားလုံး၏ နှစ်ထပ်ကိန်း သို့မဟုတ် မှတ်တမ်းကို ယူ၍ ဒေတာတွင် အသွင်ပြောင်းမှုကို လုပ်ဆောင်နိုင်သည်။ ၎င်းသည် အစွန်းထွက်များကို လျှော့ချရန် ပြသထားပြီး ဒေတာများကို ပုံမှန်အတိုင်း ပိုမိုဖြန့်ဝေ ပေးလေ့ရှိသည်။
သင့်ဒေတာရှိ အစွန်းအထင်းများကို ကိုင်တွယ်ရန် သင်မည်ကဲ့သို့ ဆုံးဖြတ်သည်ဖြစ်စေ၊ သင်၏ ခွဲခြမ်းစိတ်ဖြာမှု၏ ရလဒ်တွင် သင့်ဆုံးဖြတ်ချက်ကို သင့်ဆင်ခြင်တုံတရားနှင့်အတူ မှတ်သားထားသင့်သည်။
ထပ်လောင်းအရင်းအမြစ်များ
အောက်ဖော်ပြပါ သင်ခန်းစာများသည် မတူညီသော စာရင်းအင်းဆော့ဖ်ဝဲလ်တွင် အစွန်းထွက်များကို ရှာဖွေရန်နှင့် ဖယ်ရှားနည်းကို ရှင်းပြသည်-
Excel တွင် Outliers ကိုဘယ်လိုရှာမလဲ။
Google Sheets တွင် outliers များကို မည်သို့ရှာရမည်နည်း။
R တွင် outliers ကိုဘယ်လိုရှာရမလဲ
Python တွင် outliers ကိုဘယ်လိုရှာမလဲ။
SPSS တွင် outliers ကိုဘယ်လိုရှာမလဲ။