ကျပန်းသစ်တောများအကြောင်း ရိုးရှင်းသောနိဒါန်း
ကြိုတင်ခန့်မှန်းကိန်းရှင်အစုတစ်ခုနှင့် တုံ့ပြန်မှုကိန်းရှင် ကြား ဆက်ဆံရေးသည် အလွန်ရှုပ်ထွေးသောအခါ၊ ၎င်းတို့ကြားရှိ ဆက်ဆံရေးကို နမူနာယူရန် လိုင်းမဟုတ်သောနည်းလမ်းများကို အသုံးပြုလေ့ရှိသည်။
ထိုနည်းလမ်းမှာ အမျိုးအစားခွဲခြင်းနှင့် ဆုတ်ယုတ်မှုသစ်ပင်များ (မကြာခဏ အတိုကောက်ခေါ်သော CART) သည် တုံ့ပြန်မှုကိန်းရှင်၏တန်ဖိုးကို ခန့်မှန်းသည့် ဆုံးဖြတ်ချက်သစ်များ ဖန်တီးရန် ကြိုတင်ခန့်မှန်းကိန်းရှင်အစုံကို အသုံးပြုသည်။

ဆုံးဖြတ်ချက်သစ်ပင်များ၏ အားသာချက်မှာ ၎င်းတို့သည် အဓိပ္ပါယ်ဖော်ရန် လွယ်ကူပြီး မြင်ယောင်နိုင်ခြင်းကြောင့်ဖြစ်သည်။ ပြဿနာက သူတို့ဟာ ကွဲလွဲမှု မြင့်မား တာကို ခံရတတ်ပါတယ်။ ဆိုလိုသည်မှာ၊ ကျွန်ုပ်တို့သည် ဒေတာအတွဲတစ်ခုကို နှစ်ခြမ်းခွဲပြီး ဆုံးဖြတ်ချက်သစ်ပင်တစ်ခြမ်းကို နှစ်ခြမ်းစလုံးသို့ အသုံးချပါက ရလဒ်များသည် အလွန်ကွဲပြားနိုင်သည်။
ဆုံးဖြတ်ချက်သစ်ပင်များ၏ ကွဲလွဲမှုကို လျှော့ချရန် နည်းလမ်းတစ်ခုမှာ အောက်ဖော်ပြပါအတိုင်း လုပ်ဆောင်နိုင်သော bagging ဟုခေါ်သော နည်းလမ်းကို အသုံးပြုခြင်းဖြစ်သည်။
1. မူရင်းဒေတာအတွဲမှ b bootstrapped နမူနာများကို ယူပါ။
2. bootstrap နမူနာတစ်ခုစီအတွက် ဆုံးဖြတ်ချက်သစ်တစ်ခုကို ဖန်တီးပါ။
3. နောက်ဆုံးပုံစံတစ်ခုရရှိရန် သစ်ပင်တစ်ပင်စီမှ ခန့်မှန်းချက်များကို ပျမ်းမျှ။
ဤချဉ်းကပ်မှု၏ အားသာချက်မှာ တစ်ခုတည်းသော ဆုံးဖြတ်ချက်သစ်ပင်နှင့် နှိုင်းယှဉ်ပါက ယေဘုယျအားဖြင့် စမ်းသပ်မှု အမှားအယွင်းနှုန်းကို တိုးတက်မှု ပေးစွမ်းနိုင်သောကြောင့် ဖြစ်သည်။
အားနည်းချက်မှာ dataset တွင် အလွန်အားကောင်းသော ကြိုတင်ခန့်မှန်းသူရှိပါက အိတ်ထုပ်ပိုးထားသောသစ်ပင်စုဆောင်းမှုမှ ခန့်မှန်းချက်များသည် အလွန်ဆက်စပ်မှုရှိနိုင်ပါသည်။ ဤအခြေအနေတွင်၊ အိတ်စွပ်ထားသောသစ်ပင်အများစု သို့မဟုတ် အားလုံးသည် ပထမခွဲခြမ်းအတွက် ဤကြိုတင်ခန့်မှန်းချက်ကို အသုံးပြုမည်ဖြစ်ပြီး၊ တစ်ခုနှင့်တစ်ခု ဆင်တူပြီး အလွန်ဆက်စပ်နေသည့် ခန့်မှန်းချက်များကို ရရှိစေသည်။
ထို့ကြောင့် နောက်ဆုံးပုံစံတစ်ခုသို့ရောက်ရန် သစ်ပင်တစ်ပင်စီမှ ခန့်မှန်းချက်များကို ပျမ်းမျှအားဖြင့်၊ ဤပုံစံသည် ဆုံးဖြတ်ချက်သစ်ပင်တစ်ခုနှင့် နှိုင်းယှဉ်ပါက ကွဲလွဲမှုကို အမှန်တကယ် မလျှော့ချနိုင်ပေ။
ဤပြဿနာကို ဖြေရှင်းရန် နည်းလမ်းတစ်ခုမှာ ကျပန်းသစ်တောများ ဟု ခေါ်သော နည်းလမ်းကို အသုံးပြုခြင်းဖြစ်သည်။
အမှတ်တမဲ့ သစ်တောတွေက ဘာတွေလဲ။
အိတ်စွပ်ခြင်းကဲ့သို့ပင်၊ ကျပန်းသစ်တောများသည် မူရင်းဒေတာအတွဲမှ bootstrap လုပ်ထားသော နမူနာများကို ယူဆောင်ပါသည်။
သို့သော်လည်း၊ bootstrap နမူနာတစ်ခုစီအတွက် ဆုံးဖြတ်ချက်သစ်တစ်ခုကို တည်ဆောက်သောအခါ၊ သစ်ပင်တစ်ခုတွင် ခွဲထွက်ခြင်းကို ထည့်သွင်းစဉ်းစားသည့်အခါတိုင်း၊ p ခန့်မှန်းသူများ၏ ကျပန်းနမူနာတစ်ခုသာ p ခန့်မှန်းသူများ၏ အစုံအလင်ကို ပိုင်းခြားရန်အတွက် ကိုယ်စားလှယ်လောင်းအဖြစ် သတ်မှတ်သည်။
ထို့ကြောင့် ဤနေရာတွင် စံနမူနာတစ်ခုဖန်တီးရန် ကျပန်းသစ်တောများအသုံးပြုသည့် ပြီးပြည့်စုံသောနည်းလမ်းဖြစ်သည်။
1. မူရင်းဒေတာအတွဲမှ b bootstrapped နမူနာများကို ယူပါ။
2. bootstrap နမူနာတစ်ခုစီအတွက် ဆုံးဖြတ်ချက်သစ်တစ်ခုကို ဖန်တီးပါ။
- သစ်ပင်ကိုတည်ဆောက်သည့်အခါ၊ ခွဲခြမ်းခြင်းကိုထည့်သွင်းစဉ်းစားသည့်အခါတိုင်း၊ p ဟောကိန်းရှင်များ၏ ကျပန်းနမူနာများကိုသာ p ကြိုတင်တွက်ဆမှုအစုမှ ခွဲထုတ်ရန်အတွက် ကိုယ်စားလှယ်လောင်းများအဖြစ် သတ်မှတ်ခံရပါသည်။
3. နောက်ဆုံးပုံစံတစ်ခုရရှိရန် သစ်ပင်တစ်ပင်စီမှ ခန့်မှန်းချက်များကို ပျမ်းမျှ။
ဤနည်းလမ်းကို အသုံးပြု၍ ကျပန်းတောအတွင်းမှ သစ်ပင်များ စုဆောင်းခြင်းကို အိတ်ဆွဲခြင်းဖြင့် ထွက်လာသော သစ်ပင်များကို လေးစားမှုဖြင့် အလှဆင်ထားသည် ။
ထို့ကြောင့် သစ်ပင်တစ်ပင်စီမှ ပျမ်းမျှခန့်မှန်းချက်များကို နောက်ဆုံးပုံစံတစ်ခုသို့ရောက်ရန် ကျွန်ုပ်တို့ယူသောအခါ၊ ၎င်းသည် ကွဲပြားမှုနည်းပါးပြီး အိတ်စွပ်မော်ဒယ်ထက် စမ်းသပ်မှုအမှားအယွင်းနှုန်းကို နည်းပါးစေသည်။
ကျပန်းသစ်တောများကို အသုံးပြုသောအခါ၊ ကျွန်ုပ်တို့သည် ဆုံးဖြတ်ချက်သစ်ပင်ကို ခွဲလိုက်တိုင်း m = √ p ခန့်မှန်းချက်များကို ခွဲခြမ်းရွေးချယ်သူများအဖြစ် ယေဘူယျအားဖြင့် ယူဆပါသည်။
ဥပမာအားဖြင့်၊ ကျွန်ုပ်တို့တွင် p = 16 ကြိုတင်ခန့်မှန်းသူ စုစုပေါင်းတွင် ကိန်းဂဏန်းတစ်ခုစီရှိလျှင်၊ ယေဘုယျအားဖြင့် m = √16 = 4 ခန့်မှန်းသူများကိုသာ ခွဲခြမ်းတစ်ခုစီအတွက် ဖြစ်နိုင်ချေရှိသော ကိုယ်စားလှယ်လောင်းများအဖြစ် သတ်မှတ်သည်။
နည်းပညာမှတ်စု-
စိတ်ဝင်စားစရာကောင်းတာက m = p (ဆိုလိုသည်မှာ ခွဲခြမ်းတစ်ခုစီတွင် ခန့်မှန်းသူအားလုံးကို ကိုယ်စားလှယ်လောင်းများအဖြစ် ကျွန်ုပ်တို့ယူဆသည်) ကိုရွေးချယ်ပါက၊ ၎င်းသည် အိတ်ကိုအသုံးပြုခြင်းနှင့် ရိုးရှင်းပါသည်။
အိတ်ပြင်ပမှ အမှားအယွင်းများကို ခန့်မှန်းခြင်း။
အိတ်ထုတ်ခြင်းကဲ့သို့ပင်၊ ကျွန်ုပ်တို့သည် အိတ်ပြင်ပမှ ခန့်မှန်းချက်အား အသုံးပြု၍ ကျပန်းသစ်တောပုံစံ၏ စမ်းသပ်မှုအမှားကို တွက်ချက်နိုင်ပါသည်။
bootstrap နမူနာတစ်ခုစီတွင် မူရင်းဒေတာအတွဲမှ လေ့လာတွေ့ရှိချက်များ၏ 2/3 ခန့် ပါဝင်ကြောင်း ပြသနိုင်သည်။ သစ်ပင်နှင့်အံမဝင်အောင်အသုံးမပြုဘဲကျန်သောလေ့လာတွေ့ရှိချက်သုံးပုံတစ်ပုံကို out-of-bag (OOB) စူးစမ်းမှုများ ဟုခေါ်သည်။
မူလဒေတာအတွဲရှိ အိုင်တီလေ့လာခြင်း၏တန်ဖိုးကို ကျွန်ုပ်တို့သည် အဆိုပါလေ့လာတွေ့ရှိချက် OOB ဖြစ်သည့် သစ်ပင်တစ်ပင်ချင်းစီထံမှ ပျမ်းမျှခန့်မှန်းချက်ကို ရယူခြင်းဖြင့် ကျွန်ုပ်တို့ ခန့်မှန်းနိုင်ပါသည်။
မူရင်းဒေတာအတွဲရှိ မှတ်သားမှု အားလုံးအတွက် ခန့်မှန်းချက်တစ်ခုပြုလုပ်ရန် ဤချဉ်းကပ်နည်းကို အသုံးပြု၍ စမ်းသပ်မှုအမှား၏ မှန်ကန်သောခန့်မှန်းချက်ဖြစ်သည့် အမှားအယွင်းနှုန်းကို တွက်ချက်နိုင်ပါသည်။
စမ်းသပ်မှုအမှားကို ခန့်မှန်းရန် ဤချဉ်းကပ်နည်းကို အသုံးပြုခြင်း၏ အားသာချက်မှာ k-fold cross-validation ထက် များစွာပိုမြန်သည်၊ အထူးသဖြင့် dataset ကြီးသောအခါ၊
ကြုံရာသစ်တောများ၏ အားသာချက်များနှင့် အားနည်းချက်များ
ကျပန်းသစ်တောများသည် အောက်ပါ အကျိုးကျေးဇူးများကို ပေးဆောင်သည် ။
- အခြေအနေအများစုတွင်၊ ကျပန်းသစ်တောများသည် အိတ်စွပ်ပုံစံများနှင့် အထူးသဖြင့် တစ်ခုတည်းသော ဆုံးဖြတ်ချက်သစ်ပင်များထက် တိကျမှုကို မြှင့်တင်ပေးလိမ့်မည်။
- ကျပန်းသစ်တောများသည် ပြင်ပလူများအတွက် ကြံ့ခိုင်သည်။
- ကျပန်းသစ်တောများကို အသုံးပြုရန်အတွက် ကြိုတင်ပြင်ဆင်ခြင်း မလိုအပ်ပါ။
သို့သော် ကြုံရာသစ်တောများတွင် အောက်ပါ အလားအလာ အားနည်းချက်များရှိသည်။
- သူတို့က အဓိပ္ပာယ်ရခက်တယ်။
- ၎င်းတို့သည် ကြီးမားသော ဒေတာအတွဲများကို ဆွဲယူရန် တွက်ချက်မှုအား အလွန်အမင်း (ဆိုလိုသည်မှာ နှေးကွေးသည်)။
လက်တွေ့တွင်၊ ဒေတာသိပ္ပံပညာရှင်များသည် ကြိုတင်ခန့်မှန်းတိကျမှုကို အမြင့်ဆုံးရရှိရန် ကျပန်းသစ်တောများကို ပုံမှန်အားဖြင့် အသုံးပြုလေ့ရှိသောကြောင့် ၎င်းတို့ကို အလွယ်တကူ အဓိပ္ပာယ်ပြန်မဖော်နိုင်သောအချက်မှာ များသောအားဖြင့် ပြဿနာမဟုတ်ပါ။