စက်သင်ယူမှုတွင် အိတ်ထည့်ခြင်းအကြောင်း မိတ်ဆက်


ကြိုတင်ခန့်မှန်းကိန်းရှင်အစုတစ်ခုနှင့် တုံ့ပြန်မှုကိန်းရှင် ကြားက ဆက်နွှယ်မှုသည် တစ်ပြေးညီဖြစ်နေသောအခါ၊ ကိန်းရှင်များကြားဆက်နွယ်မှုကို နမူနာပြုလုပ်ရန် မျဉ်းကြောင်းနှိုင်းယှဥ်မှုများစွာ ကဲ့သို့သော နည်းလမ်းများကို အသုံးပြုနိုင်သည်။

သို့သော်၊ ဆက်ဆံရေးပိုမိုရှုပ်ထွေးလာသောအခါ၊ ကျွန်ုပ်တို့သည် လိုင်းမဟုတ်သောနည်းလမ်းများကို မကြာခဏအသုံးပြုရန် လိုအပ်သည်။

ထိုနည်းလမ်းမှာ အမျိုးအစားခွဲခြင်းနှင့် ဆုတ်ယုတ်မှုသစ်ပင်များ (မကြာခဏ အတိုကောက်ခေါ်သော CART) သည် တုံ့ပြန်မှုကိန်းရှင်၏တန်ဖိုးကို ခန့်မှန်းသည့် ဆုံးဖြတ်ချက်သစ်များ ဖန်တီးရန် ကြိုတင်ခန့်မှန်းကိန်းရှင်အစုံကို အသုံးပြုသည်။

ပရော်ဖက်ရှင်နယ် ဘေ့စ်ဘောကစားသမားတစ်ဦး၏ လစာကို ခန့်မှန်းရန် နှစ်ပေါင်းများစွာ အတွေ့အကြုံနှင့် ပျမ်းမျှအိမ်ပြေးခြင်းကို အသုံးပြုသည့် ဆုတ်ယုတ်မှုသစ်ပင်၏ ဥပမာ။

သို့သော်လည်း၊ CART မော်ဒယ်များ၏ အားနည်းချက်မှာ ၎င်းတို့သည် ကွဲပြားမှု မြင့်မား ခြင်းကို ခံစားရလေ့ရှိသည်။ ဆိုလိုသည်မှာ၊ ကျွန်ုပ်တို့သည် ဒေတာအတွဲတစ်ခုကို နှစ်ခြမ်းခွဲပြီး ဆုံးဖြတ်ချက်သစ်ပင်တစ်ခြမ်းကို နှစ်ခြမ်းစလုံးသို့ အသုံးချပါက ရလဒ်များသည် အလွန်ကွဲပြားနိုင်သည်။

CART မော်ဒယ်များ၏ ကွဲပြားမှုကို လျှော့ချရန် ကျွန်ုပ်တို့သုံးနိုင်သည့် နည်းလမ်းတစ်ခုမှာ bagging ဟု ခေါ်သည်၊ တစ်ခါတစ်ရံတွင် bootstrap aggregation ဟုခေါ်သည်။

အိတ်စွပ်ခြင်းဆိုတာဘာလဲ။

ကျွန်ုပ်တို့သည် တစ်ခုတည်းသော ဆုံးဖြတ်ချက်သစ်ပင်ကို ဖန်တီးသောအခါ၊ ကျွန်ုပ်တို့သည် မော်ဒယ်တည်ဆောက်ရန်အတွက် လေ့ကျင့်ရေးဒေတာအစုတစ်ခုတည်းကိုသာ အသုံးပြုပါသည်။

သို့သော်၊ အိတ်ချခြင်းသည် အောက်ပါနည်းလမ်းကို အသုံးပြုသည်-

1. မူရင်းဒေတာအတွဲမှ b bootstrapped နမူနာများကို ယူပါ။

  • bootstrap လုပ်ထားသောနမူနာ သည် လေ့လာတွေ့ရှိချက်များကို အစားထိုးယူသည့် မူရင်းဒေတာအစုံမှနမူနာဖြစ်ကြောင်း မှတ်သားပါ။

2. bootstrap နမူနာတစ်ခုစီအတွက် ဆုံးဖြတ်ချက်သစ်တစ်ခုကို ဖန်တီးပါ။

3. နောက်ဆုံးပုံစံတစ်ခုရရှိရန် သစ်ပင်တစ်ပင်စီမှ ခန့်မှန်းချက်များကို ပျမ်းမျှ။

  • ဆုတ်ယုတ်မှုသစ်ပင်များအတွက်၊ ကျွန်ုပ်တို့သည် B သစ်ပင်များပြုလုပ်သော ခန့်မှန်းချက်၏ပျမ်းမျှကို ယူသည်။
  • သစ်ပင်များ အမျိုးအစားခွဲခြင်းအတွက်၊ ကျွန်ုပ်တို့သည် B -trees မှ ပြုလုပ်သော အသုံးအများဆုံး ခန့်မှန်းချက်ကို ယူပါသည်။

အိတ်ထုတ်ခြင်းကို မည်သည့် machine learning algorithm ဖြင့်မဆိုအသုံးပြုနိုင်သော်လည်း ၎င်းတို့တွင်မူရင်းအားဖြင့် ကွဲလွဲမှုမြင့်မားပြီး အိတ်ထည့်ခြင်းသည် ကွဲပြားမှုကို သိသိသာသာလျှော့ချနိုင်သောကြောင့် ဆုံးဖြတ်ချက်သစ်များအတွက် အထူးအသုံးဝင်ပါသည်။

ဆုံးဖြတ်ချက်ချသစ်ပင်များတွင် ထုပ်ပိုးခြင်းကို အသုံးချရန်၊ ၎င်းတို့ကို တံစဉ်းခြင်းမပြုဘဲ တစ်ပင်ချင်းစီ အနက်တွင် စိုက်ပျိုးပါသည် ။ ယင်းက သစ်ပင်တစ်ပင်ချင်းစီတွင် ကွဲပြားမှုမြင့်မားသော်လည်း ဘက်လိုက်မှုနည်းပါးသည်။ ထို့နောက် ဤသစ်ပင်များမှ ပျမ်းမျှခန့်မှန်းချက်များကို ကျွန်ုပ်တို့ယူသောအခါ ကွဲလွဲမှုကို လျှော့ချနိုင်မည်ဖြစ်သည်။

လက်တွေ့တွင်၊ အကောင်းဆုံးစွမ်းဆောင်ရည်ကို ပုံမှန်အားဖြင့် သစ်ပင် 50 မှ 500 ဖြင့် ရရှိသော်လည်း နောက်ဆုံးပုံစံတစ်ခုထုတ်လုပ်ရန် သစ်ပင်ထောင်ပေါင်းများစွာကို အံကိုက်ဖြစ်နိုင်သည်။

ဒေတာအစုံ၏အရွယ်အစားပေါ် မူတည်၍ ပြဿနာရှိနိုင်သည် သို့မဟုတ် မရှိနိုင်၊ သစ်ပင်များ ပိုမိုတပ်ဆင်ရန် ကွန်ပြူတာစွမ်းအင် ပိုလိုအပ်မည်ကို သတိပြုပါ။

အိတ်ပြင်ပမှ အမှားအယွင်းများကို ခန့်မှန်းခြင်း။

k-fold cross-validation ကို အားမကိုးဘဲ အိတ်စွပ်မော်ဒယ်၏ စမ်းသပ်မှု အမှားကို တွက်ချက်နိုင်သည် ။

အကြောင်းရင်းမှာ bootstrap နမူနာတစ်ခုစီသည် မူရင်းဒေတာအတွဲမှ စူးစမ်းမှု၏ 2/3 ခန့်ပါဝင်သည်ကို ပြသနိုင်ခြင်းကြောင့်ဖြစ်သည်။ အိတ်စွပ်ထားသောသစ်ပင်နှင့် အံဝင်ခွင်ကျမဖြစ်နိုင်သော ကျန်သုံးပုံတစ်ပုံအား Out-of-bag (OOB) စူးစမ်းလေ့လာခြင်း ဟုခေါ်သည်။

မူလဒေတာအတွဲရှိ အိုင်တီလေ့လာခြင်း၏တန်ဖိုးကို ကျွန်ုပ်တို့သည် အဆိုပါလေ့လာတွေ့ရှိချက် OOB ဖြစ်သည့် သစ်ပင်တစ်ပင်ချင်းစီထံမှ ပျမ်းမျှခန့်မှန်းချက်ကို ရယူခြင်းဖြင့် ကျွန်ုပ်တို့ ခန့်မှန်းနိုင်ပါသည်။

မူလဒေတာ အစုံ ရှိ မှတ်သားမှုအားလုံးအတွက် ခန့်မှန်းချက်တစ်ခုပြုလုပ်ရန် ဤချဉ်းကပ်နည်းကို အသုံးပြု၍ စမ်းသပ်မှုအမှား၏ မှန်ကန်သော ခန့်မှန်းချက်ဖြစ်သည့် အမှားအယွင်းနှုန်းကို တွက်ချက်နိုင်ပါသည်။

စမ်းသပ်မှုအမှားကို ခန့်မှန်းရန် ဤချဉ်းကပ်နည်းကို အသုံးပြုခြင်း၏ အားသာချက်မှာ အထူးသဖြင့် ဒေတာအတွဲသည် ကြီးနေချိန်တွင် k-fold cross-validation ထက် များစွာပိုမြန်ပါသည်။

ဟောကိန်းများ၏ အရေးပါမှုကို နားလည်ခြင်း။

ဆုံးဖြတ်ချက်သစ်ပင်များ၏ အားသာချက်များထဲမှတစ်ခုမှာ ၎င်းတို့သည် အဓိပ္ပာယ်ဖွင့်ဆိုရန်လွယ်ကူပြီး မြင်ယောင်နိုင်သည်ကို သတိရပါ။

အိတ်စွပ်ခြင်းကို ကျွန်ုပ်တို့အစား အသုံးပြုသည့်အခါ၊ နောက်ဆုံးအိတ်စွပ်ပုံစံသည် ပျမ်းမျှအားဖြင့် မတူညီသောသစ်ပင်များစွာ၏ရလဒ်ဖြစ်သောကြောင့် သစ်ပင်တစ်ပင်ချင်းစီကို အဓိပ္ပာယ်ဖွင့်ဆိုနိုင်ခြင်း သို့မဟုတ် မြင်ယောင်နိုင်စွမ်းမရှိတော့ပါ။ အဓိပ္ပာယ်ဖွင့်ဆိုမှုဖြင့် ကျွန်ုပ်တို့သည် ခန့်မှန်းတိကျမှုကို ရရှိပါသည်။

သို့သော်လည်း၊ B- သစ်ပင်အားလုံးထက် ပျမ်းမျှအားဖြင့် ပေးထားသော ခန့်မှန်းသူထက် ဖြန့်ဝေမှုကြောင့် RSS (ကျန်ရှိသော စတုရန်းများ) တွင် စုစုပေါင်းလျှော့ချမှုကို တွက်ချက်ခြင်းဖြင့် ကြိုတင်ခန့်မှန်းကိန်းရှင်တစ်ခုစီ၏ အရေးပါမှုကို ကျွန်ုပ်တို့ နားလည်နိုင်ပါသေးသည်။ တန်ဖိုးကြီးလေ၊ ခန့်မှန်းသူက ပိုအရေးကြီးလေဖြစ်သည်။

အိတ်ထုတ်မော်ဒယ်အတွက် ပြောင်းလဲနိုင်သော အရေးပါမှုဇယား
ပြောင်းလဲနိုင်သော အရေးပါမှုဇယား၏ ဥပမာ။

အလားတူ၊ အမျိုးအစားခွဲခြင်းမော်ဒယ်များအတွက်၊ B -trees အားလုံးထက် ပျမ်းမျှအားဖြင့် ပေးထားသော ခန့်မှန်းပေးသူအပေါ် ဖြန့်ဖြူးမှုကြောင့် စုစုပေါင်း Gini အညွှန်းကိန်း လျော့ကျမှုကို တွက်ချက်နိုင်ပါသည်။ တန်ဖိုးကြီးလေ၊ ခန့်မှန်းသူက ပိုအရေးကြီးလေဖြစ်သည်။

ထို့ကြောင့် ကျွန်ုပ်တို့သည် နောက်ဆုံးခြုံငုံပုံစံကို အတိအကျအဓိပ္ပာယ်မဖော်နိုင်သော်လည်း၊ တုံ့ပြန်မှုကို ခန့်မှန်းရာတွင် ခန့်မှန်းသူကိန်းရှင်တစ်ခုစီသည် မည်မျှအရေးကြီးကြောင်း ကျွန်ုပ်တို့ သိရှိနိုင်ပါသေးသည်။

အိတ်ကို ကျော်လွန်သွားပါ။

အိတ်စွပ်ခြင်း၏ အားသာချက်မှာ ဆုံးဖြတ်ချက်သစ်ပင်တစ်ခုတည်းနှင့် နှိုင်းယှဉ်ပါက စမ်းသပ်မှုအမှားအယွင်းနှုန်းကို ယေဘုယျအားဖြင့် တိုးတက်မှု ပေးစွမ်းနိုင်ခြင်းဖြစ်သည်။

အားနည်းချက်မှာ dataset တွင် အလွန်အားကောင်းသော ကြိုတင်ခန့်မှန်းသူရှိပါက အိတ်ထုပ်ပိုးထားသောသစ်ပင်စုဆောင်းမှုမှ ခန့်မှန်းချက်များသည် အလွန်ဆက်စပ်မှုရှိနိုင်ပါသည်။

ဤအခြေအနေတွင်၊ အိတ်စွပ်ထားသောသစ်ပင်အများစု သို့မဟုတ် အားလုံးသည် ပထမခွဲခြမ်းအတွက် ဤကြိုတင်ခန့်မှန်းချက်ကို အသုံးပြုမည်ဖြစ်ပြီး၊ တစ်ခုနှင့်တစ်ခု ဆင်တူပြီး အလွန်ဆက်စပ်နေသည့် ခန့်မှန်းချက်များကို ရရှိစေသည်။

ဤပြဿနာအတွက် နည်းလမ်းတစ်ခုမှာ အိတ်ထုပ်ခြင်းနှင့် ဆင်တူသော်လည်း အလှဆင်သစ်ပင်များ ထုတ်လုပ်နိုင်စွမ်းရှိသည့် ကျပန်းသစ်တောများကို အသုံးပြုခြင်းဖြစ်ပြီး မကြာခဏဆိုသလို စမ်းသပ်မှုအမှားအယွင်းနှုန်းကို နည်းပါးသွားစေသည့် အလှဆင်သစ်ပင်များကို ထုတ်လုပ်နိုင်စွမ်းရှိသည်။

ကျပန်းသစ်တောများအကြောင်း ရိုးရှင်းသော နိဒါန်းကို ဤနေရာတွင် ဖတ်နိုင်ပါသည်။

ထပ်လောင်းအရင်းအမြစ်များ

အမျိုးအစားခွဲခြင်းနှင့် ဆုတ်ယုတ်မှုသစ်ပင်များအကြောင်း မိတ်ဆက်ခြင်း။
R ဖြင့် အိတ်လုပ်နည်း (တစ်ဆင့်ပြီးတစ်ဆင့်)

မှတ်ချက်တစ်ခုထည့်ပါ။

သင့် email လိပ်စာကို ဖော်ပြမည် မဟုတ်ပါ။ လိုအပ်သော ကွက်လပ်များကို * ဖြင့်မှတ်သားထားသည်