နှစ်သက်ဖွယ်ကောင်းသော မော်ဒယ်ဆိုသည်မှာ အဘယ်နည်း။
နှစ်သက်ဖွယ်ပုံစံ တစ်ခုသည် တတ်နိုင်သမျှ အနည်းငယ်သာ ရှင်းပြထားသော ကိန်းရှင်များကို အသုံးပြု၍ လိုချင်သောအဆင့်ကို ရရှိစေမည့် တစ်ခုဖြစ်သည်။
ဤပုံစံ၏နောက်ကွယ်တွင် ကျိုးကြောင်းဆင်ခြင်ခြင်းသည် Occam ၏သင်တုန်းဓား အယူအဆမှ ပေါက်ဖွားလာခြင်းဖြစ်သည် (တစ်ခါတစ်ရံ “ parsimonyနိယာမ” ဟုခေါ်သည်) အရိုးရှင်းဆုံးရှင်းပြချက်သည် မှန်ကန်သည်ဟုဆိုသည်။
ကိန်းဂဏန်းအချက်အလက်များကို အသုံးချရာတွင် ဘောင်အနည်းငယ်သာရှိသော်လည်း အံဝင်ခွင်ကျမှုအဆင့်ကို ရရှိသည့် မော်ဒယ်ကို ကန့်သတ်ဘောင်များရှိသော မော်ဒယ်ထက် အနည်းငယ်ပိုမြင့်သော အံဝင်ခွင်ကျအဆင့်ကိုသာ ရရှိသည့် မော်ဒယ်ထက် ဦးစားပေးသင့်သည်။
ယင်းအတွက် အကြောင်းရင်း နှစ်ခုရှိသည်။
1. Parsimonious မော်ဒယ်များသည် အနက်နှင့် နားလည်ရန် ပိုမိုလွယ်ကူသည်။ ကန့်သတ်ချက်နည်းသော မော်ဒယ်များသည် နားလည်ရန်နှင့် ရှင်းပြရန် ပိုမိုလွယ်ကူသည်။
2. Parsimonious မော်ဒယ်များသည် ပိုမိုကောင်းမွန်သော ခန့်မှန်းနိုင်စွမ်းရှိသည်။ ကန့်သတ်ဘောင်များ နည်းပါးသော မော်ဒယ်များသည် ဒေတာအသစ်တွင် အသုံးပြုသည့်အခါ ပိုမိုကောင်းမွန်ပါသည်။
ဤအယူအဆများကို သရုပ်ဖော်ရန် အောက်ပါဥပမာနှစ်ခုကို သုံးသပ်ကြည့်ပါ။
ဥပမာ 1- Parsimonious မော်ဒယ်များ = လွယ်ကူသော အဓိပ္ပါယ်ဖွင့်ဆိုချက်
အိမ်ခြံမြေစျေးနှုန်းများကို ခန့်မှန်းရန် အိမ်ခြံမြေနှင့်ပတ်သက်သော ရှင်းပြချက်အမျိုးမျိုးကို အသုံးပြု၍ မော်ဒယ်တစ်ခုကို တည်ဆောက်လိုသည်ဆိုပါစို့။ ၎င်းတို့၏ ချိန်ညှိထားသော R-squared ဖြင့် အောက်ပါ မော်ဒယ်နှစ်ခုကို သုံးသပ်ကြည့်ပါ-
မော်ဒယ် 1-
- ညီမျှခြင်း- အိမ်စျေးနှုန်း = 8,830 + 81*(စတုရန်းပေ)
- ချိန်ညှိထားသော R2 : 0.7734
မော်ဒယ် 2-
- ညီမျှခြင်း- အိမ်စျေးနှုန်း = 8,921 + 77*(စတုရန်းပေ) + 7*(စတုရန်းပေ) 2 – 9*(အသက်) + 600*(အိပ်ခန်း) + 38*(ရေချိုးခန်း)
- ချိန်ညှိထားသော R2 : 0.7823
ပထမမော်ဒယ်တွင် ရှင်းပြနိုင်သောကိန်းရှင်တစ်ခုသာရှိပြီး 0.7734 ၏ ချိန်ညှိထားသော R2 ရှိပြီး ဒုတိယမော်ဒယ်တွင် အနည်းငယ်ပိုမြင့်သောပြင်ဆင်ထားသော R2 ဖြင့် ရှင်းလင်းချက်ငါးခုပါရှိသည်။
ပါစီမိုနီ၏နိယာမကိုအခြေခံ၍ မော်ဒယ်တစ်ခုစီသည် အိမ်စျေးနှုန်းများကို အနီးစပ်ဆုံးရှင်းပြနိုင်သော်လည်း ပထမမော်ဒယ်သည် နားလည်ရန်နှင့် ရှင်းပြရန် ပိုမို လွယ်ကူသောကြောင့် ပထမမော်ဒယ်ကို အသုံးပြုလိုပါသည်။
ဥပမာအားဖြင့်၊ ပထမပုံစံတွင်၊ အိမ်တစ်အိမ်၏ စတုရန်းပုံတစ်ယူနစ်တိုးခြင်းသည် ပျမ်းမျှအိမ်စျေးနှုန်း $81 တိုးခြင်းနှင့် ဆက်စပ်နေကြောင်း ကျွန်ုပ်တို့သိပါသည်။ နားလည်အောင် ရှင်းပြရတာ ရိုးရှင်းပါတယ်။
သို့ရာတွင်၊ ဒုတိယဥပမာတွင်၊ ကိန်းဂဏန်းခန့်မှန်းချက်သည် အဓိပ္ပာယ်ဖွင့်ဆိုရန် ပို၍ခက်ခဲသည်။ ဥပမာအားဖြင့်၊ အိမ်ရှိ အပိုအခန်းတစ်ခန်းသည် ပျမ်းမျှအိမ်စျေးနှုန်း $600 တိုးလာခြင်းနှင့် ဆက်စပ်နေသည်၊ စတုရန်းပေ၊ အိမ်၏အသက်နှင့် ရေချိုးခန်းအရေအတွက်တို့သည် စဉ်ဆက်မပြတ်ရှိနေသည်ဟု ယူဆပါသည်။ နားလည်အောင် ရှင်းပြရတာ ပိုခက်တယ်။
ဥပမာ 2- Parsimonious မော်ဒယ်များ = ပိုကောင်းသော ခန့်မှန်းချက်များ
မူရင်းဒေတာအတွဲများ နှင့် အံကိုက် ဖြစ်နိုင်ခြေနည်းသောကြောင့် ဒေတာအတွဲအသစ်များတွင် ပါရီဆန်သောမော်ဒယ်များသည် ပိုမိုတိကျသောခန့်မှန်းချက်များကို ပြုလုပ်လေ့ရှိပါသည်။
ယေဘူယျအားဖြင့်၊ ကန့်သတ်ဘောင်များ ပိုများသော မော်ဒယ်များသည် ကန့်သတ်ဘောင်များ နည်းပါးသော မော်ဒယ်များထက် R 2 တန်ဖိုးများ ပိုမို၍ အံဝင်ခွင်ကျ ဖြစ်စေသည်။ ကံမကောင်းစွာပဲ၊ မော်ဒယ်တစ်ခုတွင် ကန့်သတ်ဘောင်များ များလွန်းခြင်း အပါအဝင် မော်ဒယ်သည် ဒေတာ၏ ဆူညံသံ (သို့မဟုတ် “ ကျပန်းဖြစ်မှု” ) ကို ချိန်ညှိနိုင်စေသည်၊ ရှင်းလင်းချက်ပေးသော ကိန်းရှင်များကြားတွင် အရင်းခံဆက်နွယ်မှုထက်၊ နှင့် တုံ့ပြန်မှု ကိန်းရှင်များ။
ဆိုလိုသည်မှာ ကန့်သတ်ဘောင်များစွာပါသော အလွန်ရှုပ်ထွေးသော မော်ဒယ်သည် ယခင်က မမြင်ဖူးသော ဒေတာအတွဲအသစ်တွင် ပါရာမီတာနည်းပါးသော ရိုးရှင်းသောမော်ဒယ်နှင့် နှိုင်းယှဉ်ပါက ညံ့ဖျင်းနိုင်သည်ဟု ဆိုလိုသည်။
ချစ်ကြိုက်တတ်တဲ့ မော်ဒယ်ကို ဘယ်လိုရွေးချယ်မလဲ။
မော်ဒယ်ရွေးချယ်ခြင်း ဆိုင်ရာ ခေါင်းစဉ်အတွက် ရည်ရွယ်ထားသော သင်တန်းတစ်ခုလုံးရှိနိုင်သော်လည်း အခြေခံအားဖြင့်၊ တူညီသောပုံစံတစ်ခုကို ရွေးချယ်ခြင်းသည် မက်ထရစ်တစ်ခုအရ အကောင်းဆုံးလုပ်ဆောင်နိုင်သော မော်ဒယ်ကို ရွေးချယ်ခြင်းဆိုလိုသည်။
လေ့ကျင့်ရေးဒေတာအတွဲတစ်ခုပေါ်အခြေခံ၍ မော်ဒယ်များ၏ စွမ်းဆောင်ရည်အပေါ် အခြေခံ၍ အကဲဖြတ်လေ့ရှိသည့် မက်ထရစ်များ နှင့် ၎င်းတို့၏ ကန့်သတ်ချက်များ အရေအတွက် ပါဝင်သည်။
1. Akaike သတင်းအချက်အလက်စံသတ်မှတ်ချက် (AIC)
Model တစ်ခု၏ AIC ကို အောက်ပါအတိုင်း တွက်ချက်နိုင်ပါသည်။
AIC = -2/n * LL + 2 * k/n
ရွှေ-
- n- လေ့ကျင့်ရေးဒေတာအတွဲတွင် လေ့လာတွေ့ရှိချက်အရေအတွက်။
- LL- လေ့ကျင့်ရေးဒေတာအတွဲတွင် မော်ဒယ်၏ မှတ်တမ်းဖြစ်နိုင်ခြေ။
- k- မော်ဒယ်ရှိ ကန့်သတ်ချက်များ အရေအတွက်။
ဤနည်းလမ်းကို အသုံးပြု၍ မော်ဒယ်တစ်ခုစီ၏ AIC ကို တွက်ချက်နိုင်ပြီး အကောင်းဆုံးမော်ဒယ်အဖြစ် အနိမ့်ဆုံး AIC တန်ဖိုးဖြင့် မော်ဒယ်ကို ရွေးချယ်နိုင်သည်။
ဤချဉ်းကပ်မှုသည် နောက်နည်းလမ်းဖြစ်သည့် BIC နှင့် နှိုင်းယှဉ်ပါက ပိုမိုရှုပ်ထွေးသော မော်ဒယ်များကို ဦးစားပေးပါသည်။
2. Bayesian Information Criterion (BIC)
Model တစ်ခု၏ BIC ကို အောက်ပါအတိုင်း တွက်ချက်နိုင်ပါသည်။
BIC = -2 * LL + log(n) * k
ရွှေ-
- n- လေ့ကျင့်ရေးဒေတာအတွဲတွင် လေ့လာတွေ့ရှိချက်အရေအတွက်။
- မှတ်တမ်း- သဘာဝ လော့ဂရစ်သမ် (အခြေခံ e)
- LL- လေ့ကျင့်ရေးဒေတာအတွဲတွင် မော်ဒယ်၏ မှတ်တမ်းဖြစ်နိုင်ခြေ။
- k- မော်ဒယ်ရှိ ကန့်သတ်ချက်များ အရေအတွက်။
ဤနည်းလမ်းကို အသုံးပြု၍ မော်ဒယ်တစ်ခုစီ၏ BIC ကို တွက်ချက်နိုင်ပြီး အကောင်းဆုံးမော်ဒယ်အဖြစ် အနိမ့်ဆုံး BIC တန်ဖိုးဖြင့် မော်ဒယ်ကို ရွေးချယ်နိုင်သည်။
ဤချဉ်းကပ်မှုသည် AIC နည်းလမ်းနှင့် နှိုင်းယှဉ်ပါက ကန့်သတ်ဘောင်များ နည်းပါးသော မော်ဒယ်များကို နှစ်သက်ဖွယ်ရှိသည်။
3. အနည်းဆုံး ဖော်ပြချက် အရှည် (MDL)
MDL သည် အချက်အလက်သီအိုရီနယ်ပယ်မှ မော်ဒယ်များကို အကဲဖြတ်ရန် နည်းလမ်းတစ်ခုဖြစ်သည်။ အောက်ပါအတိုင်း တွက်ချက်နိုင်ပါသည်။
MDL = L(h) + L(D | h)
ရွှေ-
- h: မော်ဒယ်။
- D- မော်ဒယ်က ခန့်မှန်းချက်များ။
- L(h): မော်ဒယ်ကို ကိုယ်စားပြုရန် လိုအပ်သော ဘစ်အရေအတွက်။
- L(D | h) : သင်တန်းဒေတာတွင် မော်ဒယ်၏ ခန့်မှန်းချက်များကို ကိုယ်စားပြုရန် လိုအပ်သော ဘစ်အရေအတွက်။
ဤနည်းလမ်းကို အသုံးပြု၍ မော်ဒယ်တစ်ခုစီ၏ MDL ကို တွက်ချက်နိုင်ပြီး အကောင်းဆုံးမော်ဒယ်အဖြစ် အနိမ့်ဆုံး MDL တန်ဖိုးဖြင့် မော်ဒယ်ကို ရွေးချယ်နိုင်သည်။
သင်လုပ်ဆောင်နေသော ပြဿနာအမျိုးအစားပေါ် မူတည်၍ ဤနည်းလမ်းများထဲမှ တစ်ခု – AIC၊ BIC သို့မဟုတ် MDL – နှစ်သက်ဖွယ်ကောင်းသော မော်ဒယ်ကို ရွေးချယ်ရန်အတွက် အခြားနည်းလမ်းများထက် ဦးစားပေးနိုင်ပါသည်။