စက်သင်ယူမှုတွင် ဘက်လိုက်မှုကွဲလွဲမှု အပေးအယူသည် အဘယ်နည်း။


ဒေတာအတွဲတစ်ခုပေါ်ရှိ မော်ဒယ်တစ်ခု၏ စွမ်းဆောင်ရည်ကို အကဲဖြတ်ရန်၊ ကျွန်ုပ်တို့သည် မော်ဒယ်၏ ခန့်မှန်းချက်များသည် စောင့်ကြည့်လေ့လာထားသော ဒေတာနှင့် မည်မျှကိုက်ညီကြောင်း တိုင်းတာရန် လိုအပ်ပါသည်။

ဆုတ်ယုတ်မှုပုံစံ များအတွက်၊ အသုံးအများဆုံးမက်ထရစ်မှာ အောက်ပါအတိုင်းတွက်ချက်ထားသည့် mean square error (MSE) ဖြစ်သည်။

MSE = (1/n)*Σ(y i – f(x i ))

ရွှေ-

  • n- လေ့လာတွေ့ရှိချက်စုစုပေါင်း
  • y i : IT Observation ၏ တုံ့ပြန်မှုတန်ဖိုး
  • f(x i ): i th observation ၏ ခန့်မှန်းထားသော တုံ့ပြန်မှုတန်ဖိုး

မော်ဒယ်ခန့်မှန်းချက်များသည် စောင့်ကြည့်မှုများနှင့် နီးကပ်လေ၊ MSE သည် နိမ့်လေဖြစ်သည်။

သို့သော်၊ ကျွန်ုပ်တို့သည် ကျွန်ုပ်တို့၏မော်ဒယ်ကို မမြင်ရသောဒေတာအတွက် အသုံးပြုသည့်အခါ MSE စာမေးပွဲကို သာ အာရုံစိုက်ပါသည်။ အကြောင်းမှာ ကျွန်ုပ်တို့သည် ရှိပြီးသားဒေတာပေါ်တွင်မဟုတ်ဘဲ အမည်မသိဒေတာတွင် မော်ဒယ်မည်သို့လုပ်ဆောင်မည်ကို ကျွန်ုပ်တို့ ဂရုစိုက်သောကြောင့်ဖြစ်သည်။

ဥပမာအားဖြင့်၊ စတော့စျေးနှုန်းများကို ခန့်မှန်းသည့် မော်ဒယ်တစ်ခုတွင် သမိုင်းဆိုင်ရာ အချက်အလက်များတွင် MSE နိမ့်ပါက ကောင်းမွန်သော်လည်း အနာဂတ်ဒေတာကို တိကျစွာ ခန့်မှန်းရန် မော်ဒယ်ကို အမှန်တကယ် အသုံးပြုလိုပါသည်။

MSE စာမေးပွဲကို အပိုင်းနှစ်ပိုင်းခွဲထားနိုင်သေးကြောင်း တွေ့ရှိရပါသည်။

(1) ကွဲပြားမှု- မတူညီသော လေ့ကျင့်မှုအစုံကို အသုံးပြု၍ ခန့်မှန်းပါက ကျွန်ုပ်တို့၏လုပ်ဆောင်ချက် f ပြောင်းလဲမည့်ပမာဏကို ရည်ညွှန်းသည်။

(၂) ဘက်လိုက်မှု- အလွန်ရိုးရှင်းသော ပုံစံဖြင့် တကယ့်ပြဿနာကို ချဉ်းကပ်ခြင်းဖြင့် တင်ပြခဲ့သော အမှားကို ရည်ညွှန်းသည်။

သင်္ချာအသုံးအနှုန်းများဖြင့် ရေးသားထားသည်-

MSE စမ်းသပ်မှု = Var( f̂( x 0 )) + [Bias( f̂( x 0 ))] 2 + Var(ε)

MSE စမ်းသပ်မှု = Variance + Bias 2 + Irreducible အမှား

တတိယအခေါ်အဝေါ်၊ အစားထိုးမရနိုင်သောအမှားသည် မည်သည့်ပုံစံဖြင့်မျှ လျှော့ချ၍မရသော အမှားဖြစ်ပြီး ရှင်းလင်းချက်ပြောင်းနိုင်သောကိန်းရှင်အစုများနှင့် တုံ့ပြန်မှုကိန်းရှင်များ ကြားတွင် ဆူညံသံ အမြဲရှိနေသောကြောင့်ဖြစ်သည်။

ဘက်လိုက်မှု မြင့်မား သော မော်ဒယ်များသည် ကွဲလွဲမှု နည်းပါး တတ်သည်။ ဥပမာအားဖြင့်၊ linear regression မော်ဒယ်များသည် ဘက်လိုက်မှုမြင့်မားလေ့ရှိသည် (ရှင်းလင်းချက်ကိန်းရှင်များနှင့် တုံ့ပြန်မှုကိန်းရှင်ကြား ရိုးရှင်းသောမျဉ်းကြောင်းဆက်နွယ်မှုဟု ယူဆသည်) နှင့် ကွဲလွဲမှုနည်းပါးသည် (မော်ဒယ်ခန့်မှန်းချက်သည် နမူနာမှနမူနာသို့ များစွာပြောင်းလဲမည်မဟုတ်ပါ)။ အခြား)။

သို့သော် ဘက်လိုက်မှုနည်း သော မော်ဒယ်များသည် ကွဲပြားမှု မြင့်မား တတ်သည်။ ဥပမာအားဖြင့်၊ ရှုပ်ထွေးသော လိုင်းမဟုတ်သော မော်ဒယ်များသည် ဘက်လိုက်မှု နည်းပါးတတ်သည် (ရှင်းပြချက် ကိန်းရှင်များနှင့် တုံ့ပြန်မှု ကိန်းရှင်ကြား ဆက်စပ်မှုဟု မယူဆပါနှင့်) ကွဲပြားမှု မြင့်မားသည် (မော်ဒယ် ခန့်မှန်းချက်များသည် သင်ယူမှု နမူနာမှ အခြားတစ်ခုသို့ သိသိသာသာ ပြောင်းလဲနိုင်သည်)။

အပေးအယူ ဘက်လိုက်မှုကွဲလွဲမှု

Bias-variance အပေးအယူသည် ယေဘုယျအားဖြင့် ဘက်လိုက်မှုကို တိုးလာစေသည့် ဘက်လိုက်မှုကို လျှော့ချရန် ကျွန်ုပ်တို့ရွေးချယ်သောအခါတွင် ဖြစ်ပေါ်သည့် အပေးအယူကို ရည်ညွှန်းသည်။

အောက်ပါဂရပ်သည် ဤအပေးအယူကို မြင်သာစေရန် နည်းလမ်းကို ပေးဆောင်သည်-

ဘက်လိုက်မှု-ကွဲလွဲမှု အပေးအယူ

မော်ဒယ်တစ်ခု၏ ရှုပ်ထွေးမှုများ တိုးလာသည်နှင့်အမျှ စုစုပေါင်း error လျော့နည်းသွားသည်၊ သို့သော် အချို့သောအချက်များအထိသာ။ အချို့သောအချက်ကိုကျော်လွန်၍ ကွဲလွဲမှုစတင်လာပြီး စုစုပေါင်းအမှားအယွင်းများလည်း တိုးလာပါသည်။

လက်တွေ့တွင်၊ ကျွန်ုပ်တို့သည် ကွဲပြားမှု သို့မဟုတ် ဘက်လိုက်မှုကို လျှော့ချရန် မလိုအပ်ဘဲ မော်ဒယ်တစ်ခု၏ စုစုပေါင်းအမှားကို လျှော့ချရန်သာ အာရုံစိုက်ပါသည်။ စုစုပေါင်းအမှားကို လျှော့ချရန် နည်းလမ်းမှာ ကွဲလွဲမှုနှင့် ဘက်လိုက်မှုကြား မှန်ကန်သော ချိန်ခွင်လျှာကို ရှာဖွေရန်ဖြစ်သည်ကို တွေ့ရှိရသည်။

တစ်နည်းဆိုရသော် ကျွန်ုပ်တို့သည် ရှင်းလင်းချက်ကိန်းရှင်များနှင့် တုံ့ပြန်မှုကိန်းရှင်ကြားရှိ စစ်မှန်သောဆက်နွယ်မှုကို ဖမ်းယူနိုင်လောက်အောင် ရှုပ်ထွေးသည့် စံပြပုံစံကို လိုချင်သော်လည်း လက်တွေ့တွင် မရှိသည့်ပုံစံများကို ရှာဖွေရန် အလွန်ရှုပ်ထွေးမည်မဟုတ်ပါ။

မော်ဒယ်တစ်ခုသည် ရှုပ်ထွေးလွန်းသောအခါ၊ ၎င်းသည် ဒေတာ နှင့် ပိုကိုက်ညီသည် ။ အခွင့်အလမ်းကြောင့်ဖြစ်ရသည့် လေ့ကျင့်ရေးဒေတာတွင် ပုံစံများကိုရှာဖွေရန် အလွန်ခက်ခဲသောကြောင့်ဖြစ်သည်။ ဤပုံစံသည် မမြင်နိုင်သောဒေတာများတွင် ညံ့ဖျင်းစွာလုပ်ဆောင်နိုင်ဖွယ်ရှိသည်။

ဒါပေမယ့် မော်ဒယ်တစ်ခုက ရိုးရှင်းလွန်းတဲ့အခါ အချက်အလက်ကို လျှော့တွက်တယ် ။ ရှင်းလင်းချက်ကိန်းရှင်များနှင့် တုံ့ပြန်မှုကိန်းရှင်ကြားရှိ စစ်မှန်သောဆက်နွယ်မှုမှာ ၎င်းထက်ပိုမိုရိုးရှင်းသည်ဟု ယူဆသောကြောင့် ထိုသို့ဖြစ်ရခြင်းဖြစ်ပေသည်။

စက်သင်ယူမှုတွင် အကောင်းဆုံးမော်ဒယ်များကို ရွေးချယ်ရန်နည်းလမ်းမှာ အနာဂတ်မမြင်ရသောဒေတာများတွင် မော်ဒယ်စမ်းသပ်မှုအမှားကို လျှော့ချရန် ဘက်လိုက်မှုနှင့် ကွဲလွဲမှုအကြား ဟန်ချက်ညီမှုကို ရှာဖွေရန်ဖြစ်သည်။

လက်တွေ့တွင်၊ စစ်ဆေးမှုများ၏ MSE ကိုလျှော့ချရန် အသုံးအများဆုံးနည်းလမ်းမှာ cross-validation ကို အသုံးပြုခြင်းဖြစ်သည်။

မှတ်ချက်တစ်ခုထည့်ပါ။

သင့် email လိပ်စာကို ဖော်ပြမည် မဟုတ်ပါ။ လိုအပ်သော ကွက်လပ်များကို * ဖြင့်မှတ်သားထားသည်