ဆုံးဖြတ်ချက်သစ်ပင်နှင့် ကျပန်းသစ်တောများ- ကွာခြားချက်ကား အဘယ်နည်း။
ဆုံးဖြတ်ချက်သစ် တစ်ခုသည် ကြိုတင်ခန့်မှန်းကိန်းရှင်များအစုအဝေးနှင့် တုံ့ပြန်မှုကိန်းရှင်သည် လိုင်းမဟုတ်သော ဆက်စပ်မှုရှိသောအခါ အသုံးပြုသည့် စက်သင်ယူမှုပုံစံတစ်မျိုးဖြစ်သည်။
ဆုံးဖြတ်ချက်သစ်ပင်နောက်ကွယ်ရှိ အခြေခံအယူအဆမှာ ဆုံးဖြတ်ချက်စည်းမျဉ်းများကိုအသုံးပြု၍ တုံ့ပြန်မှုကိန်းရှင်၏တန်ဖိုးကို ခန့်မှန်းပေးသည့် ခန့်မှန်းကိန်းရှင်ကိန်းရှင်အစုကို အသုံးပြု၍ “ သစ်ပင်” ကို တည်ဆောက်ရန်ဖြစ်သည်။
ဥပမာအားဖြင့်၊ ပရော်ဖက်ရှင်နယ်ဘေ့စ်ဘောကစားသမားများ၏ နှစ်စဉ်လစာကို ခန့်မှန်းရန် “ ကစားခဲ့သည့်နှစ်များ” နှင့် “ ပျမ်းမျှအိမ်ပြန်ပြေးမှုများ” ကို ခန့်မှန်းပေးသည့်ကိန်းရှင်များကို အသုံးပြုနိုင်သည်။
ဤဒေတာအတွဲကို အသုံးပြုခြင်းဖြင့်၊ ဤအရာသည် ဆုံးဖြတ်ချက်သစ်ပင်ပုံစံကဲ့သို့ ဖြစ်နိုင်သည်-

ဤတွင် ကျွန်ုပ်တို့သည် ဤဆုံးဖြတ်ချက်ကို မည်သို့အဓိပ္ပာယ်ဖွင့်ဆိုမည်နည်း။
- 4.5 နှစ်အောက် ကစားခဲ့သော ကစားသမားများသည် ခန့်မှန်းလစာ $225.8k ရှိသည်။
- ပျမ်းမျှအားဖြင့် 4.5 နှစ်နှင့်အထက် ကစားပြီး 16.5 ထက်နည်းသော ကစားသူများသည် ပျမ်းမျှလစာ $577.6K ရှိသည်။
- အတွေ့အကြုံ 4.5 နှစ်နှင့် အထက်ရှိသော ကစားသမားများနှင့် ပျမ်းမျှ 16.5 သို့မဟုတ် ထို့ထက်ပိုသော အိမ်ပြေးပွဲများတွင် မျှော်မှန်းလစာ $975.6K ရှိသည်။
ဆုံးဖြတ်ချက်သစ်၏ အဓိကအားသာချက်မှာ ဒေတာအစုတစ်ခုသို့ လျင်မြန်စွာ လိုက်လျောညီထွေဖြစ်စေနိုင်ပြီး နောက်ဆုံးပုံစံသည် အထက်ပါကဲ့သို့ “ သစ်ပင်” ပုံကြမ်းကို အသုံးပြု၍ ရှင်းလင်းစွာမြင်ယောင်ကာ အဓိပ္ပာယ်ပြန်ဆိုနိုင်ခြင်းကြောင့်ဖြစ်သည်။
အဓိကအားနည်းချက်မှာ ဆုံးဖြတ်ချက်သစ်တစ်ပင်သည် လေ့ကျင့်ရေးဒေတာအတွဲကို လွန်လွန်ကဲကဲ ဖြစ်တတ်သည်၊ ဆိုလိုသည်မှာ ၎င်းသည် မမြင်ရသောဒေတာများတွင် ညံ့ဖျင်းစွာလုပ်ဆောင်နိုင်ဖွယ်ရှိသည်။ ၎င်းသည် dataset ရှိ outliers များမှလည်း ကြီးကြီးမားမား လွှမ်းမိုးနိုင်သည်။
ဆုံးဖြတ်ချက်သစ်ပင်၏ တိုးချဲ့မှုသည် ဆုံးဖြတ်ချက်သစ်ပင်များ၏ အခြေခံအားဖြင့် ကျပန်းသစ်တော ဟုခေါ်သော ပုံစံတစ်ခုဖြစ်သည်။
ဤသည်မှာ ကျပန်းသစ်တောပုံစံတစ်ခုဖန်တီးရန် ကျွန်ုပ်တို့အသုံးပြုသည့်အဆင့်များဖြစ်သည်-
1. မူရင်းဒေတာအတွဲမှ bootstrapped နမူနာများကို ယူပါ။
2. bootstrap နမူနာတစ်ခုစီအတွက်၊ ခန့်မှန်းသူကိန်းရှင်များ၏ ကျပန်းပုံစံခွဲတစ်ခုကို အသုံးပြု၍ ဆုံးဖြတ်ချက်သစ်တစ်ခုကို ဖန်တီးပါ။
3. နောက်ဆုံးပုံစံတစ်ခုရရှိရန် သစ်ပင်တစ်ပင်စီမှ ခန့်မှန်းချက်များကို ပျမ်းမျှ။
ကျပန်းသစ်တောများ၏ အားသာချက်မှာ ၎င်းတို့သည် မမြင်ရသော အချက်အလက်များတွင် ဆုံးဖြတ်ချက်ချသောသစ်ပင်များထက် များစွာသာလွန်ကောင်းမွန်ပြီး ပြင်ပသို့ ကျရောက်နိုင်မှုနည်းသောကြောင့်ဖြစ်သည်။
ကျပန်းသစ်တောများ၏ အားနည်းချက်မှာ နောက်ဆုံးပုံစံကို မြင်ယောင်ရန် နည်းလမ်းမရှိတော့ဘဲ သင့်တွင် ကွန်ပြူတာစွမ်းအား မလုံလောက်ပါက သို့မဟုတ် သင်အလုပ်လုပ်နေသော ဒေတာအစုံသည် အလွန်ကြီးမားနေပါက ၎င်းတို့ကို တည်ဆောက်ရန် အချိန်ကြာမြင့်နိုင်သောကြောင့် ဖြစ်သည်။
အားသာချက်များနှင့် အားနည်းချက်များ- Decision Trees vs. ကျပန်းသစ်တောများ
အောက်ဖော်ပြပါဇယားသည် ကြုံရာသစ်တောများနှင့် နှိုင်းယှဉ်ပါက ဆုံးဖြတ်ချက်သစ်ပင်များ၏ အားသာချက်များနှင့် အားနည်းချက်များကို အကျဉ်းချုပ်ဖော်ပြထားသည်-

ဤသည်မှာ ဇယားရှိ အတန်းတစ်ခုစီ၏ အကျဉ်းချုပ် ရှင်းလင်းချက်ဖြစ်သည်-
1. စကားပြန်
အဆုံးအဖြတ်သစ်ပင်များသည် နောက်ဆုံးပုံစံကို မြင်ယောင်နားလည်နိုင်စေရန် သစ်ပင်ပုံကားချပ်တစ်ခုကို ဖန်တီးနိုင်သောကြောင့် ဆုံးဖြတ်ချက်သစ်များသည် အဓိပ္ပာယ်ဖွင့်ဆိုရလွယ်ကူပါသည်။
ဆန့်ကျင်ဘက်အားဖြင့် ကျွန်ုပ်တို့သည် ကျပန်းသစ်တောကို မမြင်နိုင်သည့်အပြင် နောက်ဆုံးကျပန်းသစ်တောပုံစံက ဆုံးဖြတ်ချက်များ မည်သို့ချသည်ကို နားလည်ရန် မကြာခဏ ခက်ခဲနိုင်သည်။
2. တိကျမှု
ဆုံးဖြတ်ချက်သစ်များသည် လေ့ကျင့်ရေးဒေတာအတွဲကို ကျော်လွန်နိုင်ဖွယ်ရှိသောကြောင့် ၎င်းတို့သည် မမြင်ရသောဒေတာအတွဲများတွင် ပိုမိုဆိုးရွားသွားတတ်သည်။
အပြန်အလှန်အားဖြင့်၊ ကျပန်းသစ်တောများသည် မမြင်ရသော ဒေတာအတွဲများပေါ်တွင် အလွန်တိကျသော လေ့ကျင့်ရေးဒေတာအတွဲများကို ရှောင်ရှားသောကြောင့် ၎င်းတို့သည် အလွန်တိကျပါသည်။
3. အလွန်အကျွံ
အစောပိုင်းတွင် ဖော်ပြခဲ့သည့်အတိုင်း၊ ဆုံးဖြတ်ချက်သစ်များသည် လေ့ကျင့်ရေးဒေတာကို လွန်ကဲနေလေ့ရှိသည်- ဆိုလိုသည်မှာ ၎င်းတို့သည် စစ်မှန်သော အရင်းခံပုံစံနှင့် ဆန့်ကျင်ဘက်ဖြစ်သည့် ဒေတာအတွဲတစ်ခု၏ “ ဆူညံသံ” နှင့် လိုက်လျောညီထွေဖြစ်ဖွယ်ရှိသည်။
အပြန်အလှန်အားဖြင့်၊ ကျပန်းသစ်တောများသည် ဆုံးဖြတ်ချက်တစ်ခုစီတိုင်းကို တည်ဆောက်ရန်အတွက် ခန့်မှန်းတွက်ချက်နိုင်သောကိန်းရှင်များကိုသာ အသုံးပြုသောကြောင့်၊ နောက်ဆုံးသစ်ပင်များကို အလှဆင်လေ့ရှိသည်၊ ဆိုလိုသည်မှာ ကျပန်းသစ်တောပုံစံများသည် ဒေတာအစုံများကို လွန်လွန်ကဲကဲမဖြစ်နိုင်ဟု ဆိုလိုပါသည်။
4. Outliers
ဆုံးဖြတ်ချက်သစ်များသည် ပြင်ပလူများ၏ သက်ရောက်မှုကို အလွန်ခံရနိုင်ချေရှိသည်။
ဆန့်ကျင်ဘက်အားဖြင့်၊ ကျပန်းသစ်တောပုံစံတစ်ခုသည် တစ်ဦးချင်းစီ ဆုံးဖြတ်ချက်ချသည့်သစ်ပင်များစွာကို တည်ဆောက်ပြီးနောက် ထိုသစ်ပင်များမှ ခန့်မှန်းချက်များကို ပျမ်းမျှယူသောကြောင့်၊ အကျဥ်းစားမှုများကြောင့် ထိခိုက်နိုင်ခြေ နည်းပါးပါသည်။
5. တွက်ချက်မှု
ဆုံးဖြတ်ချက်သစ်များသည် ဒေတာအတွဲများနှင့် အမြန်လိုက်လျောညီထွေဖြစ်စေနိုင်သည်။
အပြန်အလှန်အားဖြင့်၊ ကျပန်းသစ်တောများသည် တွက်ချက်မှုအရ ပိုမိုပြင်းထန်ပြီး ဒေတာအတွဲ၏အရွယ်အစားပေါ် မူတည်၍ ဖန်တီးရန် အချိန်ကြာမြင့်နိုင်သည်။
ဆုံးဖြတ်ချက်ချသောသစ်ပင်များ သို့မဟုတ် ကျပန်းသစ်တောများကို မည်သည့်အချိန်တွင် အသုံးပြုရမည်နည်း။
ယေဘုယျအားဖြင့်-
အကယ်၍ သင်သည် linear မဟုတ်သော မော်ဒယ်ကို အမြန်ဖန်တီးပြီး မော်ဒယ်ဆုံးဖြတ်ချက်များကို မည်ကဲ့သို့ လွယ်ကူစွာ အဓိပ္ပါယ်ဖွင့်ဆိုလိုပါက ဆုံးဖြတ်ချက်သစ်ကို အသုံးပြုသင့်သည်။
သို့သော် သင့်တွင် တွက်ချက်မှုစွမ်းအားများစွာရှိပြီး မော်ဒယ်ကို အနက်ပြန်ဆိုပုံနှင့်ပတ်သက်၍ စိုးရိမ်စရာမလိုဘဲ အလွန်တိကျဖွယ်ရှိသည့် မော်ဒယ်တစ်ခုကို ဖန်တီးလိုပါက ကျပန်းတော ကို အသုံးပြုသင့်သည်။
လက်တွေ့ကမ္ဘာတွင်၊ စက်သင်ယူမှုအင်ဂျင်နီယာများနှင့် ဒေတာသိပ္ပံပညာရှင်များသည် အလွန်တိကျပြီး ခေတ်မီသောကွန်ပျူတာများနှင့် စနစ်များသည် ယခင်က မကိုင်တွယ်နိုင်သော ကြီးမားသောဒေတာအတွဲများကို မကြာခဏကိုင်တွယ်နိုင်သောကြောင့် ကျပန်းသစ်တောများကို လက်တွေ့ကမ္ဘာတွင် အသုံးပြုလေ့ရှိသည်။
ထပ်လောင်းအရင်းအမြစ်များ
အောက်ဖော်ပြပါ သင်ခန်းစာများသည် ဆုံးဖြတ်ချက်သစ်ပင်များနှင့် ကျပန်းသစ်တောပုံစံများကို မိတ်ဆက်တင်ပြသည်-
အောက်ဖော်ပြပါ သင်ခန်းစာများသည် R တွင် ဆုံးဖြတ်ချက်သစ်ပင်များနှင့် ကျပန်းသစ်တောများနှင့် အံဝင်ခွင်ကျဖြစ်ပုံကို ရှင်းပြထားသည်။