နှစ်သက်ဖွယ်ကောင်းသော မော်ဒယ်ဆိုသည်မှာ အဘယ်နည်း။


နှစ်သက်ဖွယ်ပုံစံ တစ်ခုသည် တတ်နိုင်သမျှ အနည်းငယ်သာ ရှင်းပြထားသော ကိန်းရှင်များကို အသုံးပြု၍ လိုချင်သောအဆင့်ကို ရရှိစေမည့် တစ်ခုဖြစ်သည်။

ဤပုံစံ၏နောက်ကွယ်တွင် ကျိုးကြောင်းဆင်ခြင်ခြင်းသည် Occam ၏သင်တုန်းဓား အယူအဆမှ ပေါက်ဖွားလာခြင်းဖြစ်သည် (တစ်ခါတစ်ရံ “ parsimonyနိယာမ” ဟုခေါ်သည်) အရိုးရှင်းဆုံးရှင်းပြချက်သည် မှန်ကန်သည်ဟုဆိုသည်။

ကိန်းဂဏန်းအချက်အလက်များကို အသုံးချရာတွင် ဘောင်အနည်းငယ်သာရှိသော်လည်း အံဝင်ခွင်ကျမှုအဆင့်ကို ရရှိသည့် မော်ဒယ်ကို ကန့်သတ်ဘောင်များရှိသော မော်ဒယ်ထက် အနည်းငယ်ပိုမြင့်သော အံဝင်ခွင်ကျအဆင့်ကိုသာ ရရှိသည့် မော်ဒယ်ထက် ဦးစားပေးသင့်သည်။

ယင်းအတွက် အကြောင်းရင်း နှစ်ခုရှိသည်။

1. Parsimonious မော်ဒယ်များသည် အနက်နှင့် နားလည်ရန် ပိုမိုလွယ်ကူသည်။ ကန့်သတ်ချက်နည်းသော မော်ဒယ်များသည် နားလည်ရန်နှင့် ရှင်းပြရန် ပိုမိုလွယ်ကူသည်။

2. Parsimonious မော်ဒယ်များသည် ပိုမိုကောင်းမွန်သော ခန့်မှန်းနိုင်စွမ်းရှိသည်။ ကန့်သတ်ဘောင်များ နည်းပါးသော မော်ဒယ်များသည် ဒေတာအသစ်တွင် အသုံးပြုသည့်အခါ ပိုမိုကောင်းမွန်ပါသည်။

ဤအယူအဆများကို သရုပ်ဖော်ရန် အောက်ပါဥပမာနှစ်ခုကို သုံးသပ်ကြည့်ပါ။

ဥပမာ 1- Parsimonious မော်ဒယ်များ = လွယ်ကူသော အဓိပ္ပါယ်ဖွင့်ဆိုချက်

အိမ်ခြံမြေစျေးနှုန်းများကို ခန့်မှန်းရန် အိမ်ခြံမြေနှင့်ပတ်သက်သော ရှင်းပြချက်အမျိုးမျိုးကို အသုံးပြု၍ မော်ဒယ်တစ်ခုကို တည်ဆောက်လိုသည်ဆိုပါစို့။ ၎င်းတို့၏ ချိန်ညှိထားသော R-squared ဖြင့် အောက်ပါ မော်ဒယ်နှစ်ခုကို သုံးသပ်ကြည့်ပါ-

မော်ဒယ် 1-

  • ညီမျှခြင်း- အိမ်စျေးနှုန်း = 8,830 + 81*(စတုရန်းပေ)
  • ချိန်ညှိထားသော R2 : 0.7734

မော်ဒယ် 2-

  • ညီမျှခြင်း- အိမ်စျေးနှုန်း = 8,921 + 77*(စတုရန်းပေ) + 7*(စတုရန်းပေ) 2 – 9*(အသက်) + 600*(အိပ်ခန်း) + 38*(ရေချိုးခန်း)
  • ချိန်ညှိထားသော R2 : 0.7823

ပထမမော်ဒယ်တွင် ရှင်းပြနိုင်သောကိန်းရှင်တစ်ခုသာရှိပြီး 0.7734 ၏ ချိန်ညှိထားသော R2 ရှိပြီး ဒုတိယမော်ဒယ်တွင် အနည်းငယ်ပိုမြင့်သောပြင်ဆင်ထားသော R2 ဖြင့် ရှင်းလင်းချက်ငါးခုပါရှိသည်။

ပါစီမိုနီ၏နိယာမကိုအခြေခံ၍ မော်ဒယ်တစ်ခုစီသည် အိမ်စျေးနှုန်းများကို အနီးစပ်ဆုံးရှင်းပြနိုင်သော်လည်း ပထမမော်ဒယ်သည် နားလည်ရန်နှင့် ရှင်းပြရန် ပိုမို လွယ်ကူသောကြောင့် ပထမမော်ဒယ်ကို အသုံးပြုလိုပါသည်။

ဥပမာအားဖြင့်၊ ပထမပုံစံတွင်၊ အိမ်တစ်အိမ်၏ စတုရန်းပုံတစ်ယူနစ်တိုးခြင်းသည် ပျမ်းမျှအိမ်စျေးနှုန်း $81 တိုးခြင်းနှင့် ဆက်စပ်နေကြောင်း ကျွန်ုပ်တို့သိပါသည်။ နားလည်အောင် ရှင်းပြရတာ ရိုးရှင်းပါတယ်။

သို့ရာတွင်၊ ဒုတိယဥပမာတွင်၊ ကိန်းဂဏန်းခန့်မှန်းချက်သည် အဓိပ္ပာယ်ဖွင့်ဆိုရန် ပို၍ခက်ခဲသည်။ ဥပမာအားဖြင့်၊ အိမ်ရှိ အပိုအခန်းတစ်ခန်းသည် ပျမ်းမျှအိမ်စျေးနှုန်း $600 တိုးလာခြင်းနှင့် ဆက်စပ်နေသည်၊ စတုရန်းပေ၊ အိမ်၏အသက်နှင့် ရေချိုးခန်းအရေအတွက်တို့သည် စဉ်ဆက်မပြတ်ရှိနေသည်ဟု ယူဆပါသည်။ နားလည်အောင် ရှင်းပြရတာ ပိုခက်တယ်။

ဥပမာ 2- Parsimonious မော်ဒယ်များ = ပိုကောင်းသော ခန့်မှန်းချက်များ

မူရင်းဒေတာအတွဲများ နှင့် အံကိုက် ဖြစ်နိုင်ခြေနည်းသောကြောင့် ဒေတာအတွဲအသစ်များတွင် ပါရီဆန်သောမော်ဒယ်များသည် ပိုမိုတိကျသောခန့်မှန်းချက်များကို ပြုလုပ်လေ့ရှိပါသည်။

ယေဘူယျအားဖြင့်၊ ကန့်သတ်ဘောင်များ ပိုများသော မော်ဒယ်များသည် ကန့်သတ်ဘောင်များ နည်းပါးသော မော်ဒယ်များထက် R 2 တန်ဖိုးများ ပိုမို၍ အံဝင်ခွင်ကျ ဖြစ်စေသည်။ ကံမကောင်းစွာပဲ၊ မော်ဒယ်တစ်ခုတွင် ကန့်သတ်ဘောင်များ များလွန်းခြင်း အပါအဝင် မော်ဒယ်သည် ဒေတာ၏ ဆူညံသံ (သို့မဟုတ် “ ကျပန်းဖြစ်မှု” ) ကို ချိန်ညှိနိုင်စေသည်၊ ရှင်းလင်းချက်ပေးသော ကိန်းရှင်များကြားတွင် အရင်းခံဆက်နွယ်မှုထက်၊ နှင့် တုံ့ပြန်မှု ကိန်းရှင်များ။

ဆိုလိုသည်မှာ ကန့်သတ်ဘောင်များစွာပါသော အလွန်ရှုပ်ထွေးသော မော်ဒယ်သည် ယခင်က မမြင်ဖူးသော ဒေတာအတွဲအသစ်တွင် ပါရာမီတာနည်းပါးသော ရိုးရှင်းသောမော်ဒယ်နှင့် နှိုင်းယှဉ်ပါက ညံ့ဖျင်းနိုင်သည်ဟု ဆိုလိုသည်။

ချစ်ကြိုက်တတ်တဲ့ မော်ဒယ်ကို ဘယ်လိုရွေးချယ်မလဲ။

မော်ဒယ်ရွေးချယ်ခြင်း ဆိုင်ရာ ခေါင်းစဉ်အတွက် ရည်ရွယ်ထားသော သင်တန်းတစ်ခုလုံးရှိနိုင်သော်လည်း အခြေခံအားဖြင့်၊ တူညီသောပုံစံတစ်ခုကို ရွေးချယ်ခြင်းသည် မက်ထရစ်တစ်ခုအရ အကောင်းဆုံးလုပ်ဆောင်နိုင်သော မော်ဒယ်ကို ရွေးချယ်ခြင်းဆိုလိုသည်။

လေ့ကျင့်ရေးဒေတာအတွဲတစ်ခုပေါ်အခြေခံ၍ မော်ဒယ်များ၏ စွမ်းဆောင်ရည်အပေါ် အခြေခံ၍ အကဲဖြတ်လေ့ရှိသည့် မက်ထရစ်များ နှင့် ၎င်းတို့၏ ကန့်သတ်ချက်များ အရေအတွက် ပါဝင်သည်။

1. Akaike သတင်းအချက်အလက်စံသတ်မှတ်ချက် (AIC)

Model တစ်ခု၏ AIC ကို အောက်ပါအတိုင်း တွက်ချက်နိုင်ပါသည်။

AIC = -2/n * LL + 2 * k/n

ရွှေ-

  • n- လေ့ကျင့်ရေးဒေတာအတွဲတွင် လေ့လာတွေ့ရှိချက်အရေအတွက်။
  • LL- လေ့ကျင့်ရေးဒေတာအတွဲတွင် မော်ဒယ်၏ မှတ်တမ်းဖြစ်နိုင်ခြေ။
  • k- မော်ဒယ်ရှိ ကန့်သတ်ချက်များ အရေအတွက်။

ဤနည်းလမ်းကို အသုံးပြု၍ မော်ဒယ်တစ်ခုစီ၏ AIC ကို တွက်ချက်နိုင်ပြီး အကောင်းဆုံးမော်ဒယ်အဖြစ် အနိမ့်ဆုံး AIC တန်ဖိုးဖြင့် မော်ဒယ်ကို ရွေးချယ်နိုင်သည်။

ဤချဉ်းကပ်မှုသည် နောက်နည်းလမ်းဖြစ်သည့် BIC နှင့် နှိုင်းယှဉ်ပါက ပိုမိုရှုပ်ထွေးသော မော်ဒယ်များကို ဦးစားပေးပါသည်။

2. Bayesian Information Criterion (BIC)

Model တစ်ခု၏ BIC ကို အောက်ပါအတိုင်း တွက်ချက်နိုင်ပါသည်။

BIC = -2 * LL + log(n) * k

ရွှေ-

  • n- လေ့ကျင့်ရေးဒေတာအတွဲတွင် လေ့လာတွေ့ရှိချက်အရေအတွက်။
  • မှတ်တမ်း- သဘာဝ လော့ဂရစ်သမ် (အခြေခံ e)
  • LL- လေ့ကျင့်ရေးဒေတာအတွဲတွင် မော်ဒယ်၏ မှတ်တမ်းဖြစ်နိုင်ခြေ။
  • k- မော်ဒယ်ရှိ ကန့်သတ်ချက်များ အရေအတွက်။

ဤနည်းလမ်းကို အသုံးပြု၍ မော်ဒယ်တစ်ခုစီ၏ BIC ကို တွက်ချက်နိုင်ပြီး အကောင်းဆုံးမော်ဒယ်အဖြစ် အနိမ့်ဆုံး BIC တန်ဖိုးဖြင့် မော်ဒယ်ကို ရွေးချယ်နိုင်သည်။

ဤချဉ်းကပ်မှုသည် AIC နည်းလမ်းနှင့် နှိုင်းယှဉ်ပါက ကန့်သတ်ဘောင်များ နည်းပါးသော မော်ဒယ်များကို နှစ်သက်ဖွယ်ရှိသည်။

3. အနည်းဆုံး ဖော်ပြချက် အရှည် (MDL)

MDL သည် အချက်အလက်သီအိုရီနယ်ပယ်မှ မော်ဒယ်များကို အကဲဖြတ်ရန် နည်းလမ်းတစ်ခုဖြစ်သည်။ အောက်ပါအတိုင်း တွက်ချက်နိုင်ပါသည်။

MDL = L(h) + L(D | h)

ရွှေ-

  • h: မော်ဒယ်။
  • D- မော်ဒယ်က ခန့်မှန်းချက်များ။
  • L(h): မော်ဒယ်ကို ကိုယ်စားပြုရန် လိုအပ်သော ဘစ်အရေအတွက်။
  • L(D | h) : သင်တန်းဒေတာတွင် မော်ဒယ်၏ ခန့်မှန်းချက်များကို ကိုယ်စားပြုရန် လိုအပ်သော ဘစ်အရေအတွက်။

ဤနည်းလမ်းကို အသုံးပြု၍ မော်ဒယ်တစ်ခုစီ၏ MDL ကို တွက်ချက်နိုင်ပြီး အကောင်းဆုံးမော်ဒယ်အဖြစ် အနိမ့်ဆုံး MDL တန်ဖိုးဖြင့် မော်ဒယ်ကို ရွေးချယ်နိုင်သည်။

သင်လုပ်ဆောင်နေသော ပြဿနာအမျိုးအစားပေါ် မူတည်၍ ဤနည်းလမ်းများထဲမှ တစ်ခု – AIC၊ BIC သို့မဟုတ် MDL – နှစ်သက်ဖွယ်ကောင်းသော မော်ဒယ်ကို ရွေးချယ်ရန်အတွက် အခြားနည်းလမ်းများထက် ဦးစားပေးနိုင်ပါသည်။

မှတ်ချက်တစ်ခုထည့်ပါ။

သင့် email လိပ်စာကို ဖော်ပြမည် မဟုတ်ပါ။ လိုအပ်သော ကွက်လပ်များကို * ဖြင့်မှတ်သားထားသည်