အမျိုးအစားခွဲခြင်းနှင့် ဆုတ်ယုတ်ခြင်းသစ်ပင်များအကြောင်း မိတ်ဆက်ခြင်း။
ကြိုတင်ခန့်မှန်းကိန်းရှင်အစုတစ်ခုနှင့် တုံ့ပြန်မှုကိန်းရှင် ကြားရှိ ဆက်နွှယ်မှုသည် တစ်ပြေးညီဖြစ်နေသောအခါ၊ များစွာသောမျဉ်းကြောင်းဆုတ်ယုတ်မှု ကဲ့သို့သော နည်းလမ်းများသည် တိကျသောကြိုတင်ခန့်မှန်းမှုပုံစံများကို ထုတ်ပေးနိုင်သည်။
သို့သော်၊ ကြိုတင်ခန့်မှန်းသူအစုအဝေးတစ်ခုနှင့် တုံ့ပြန်မှုအကြား ဆက်နွှယ်မှုသည် လိုင်းမဟုတ်သောနှင့် ရှုပ်ထွေးလွန်းသောအခါ၊ linear မဟုတ်သောနည်းလမ်းများသည် ပိုမိုကောင်းမွန်နိုင်သည်။
လိုင်းမဟုတ်သောနည်းလမ်း၏ ဥပမာတစ်ခုမှာ အမျိုးအစားခွဲခြင်းနှင့် ဆုတ်ယုတ်ခြင်းသစ်ပင်များ ဖြစ်ပြီး မကြာခဏ အတိုကောက်ခေါ်သော လှည်းများ ဖြစ်သည်။
နာမည်အကြံပြုထားသည့်အတိုင်း၊ CART မော်ဒယ်များသည် တုံ့ပြန်မှုကိန်းရှင်၏တန်ဖိုးကို ခန့်မှန်းသည့် ဆုံးဖြတ်ချက်သစ်များ ဖန်တီးရန် ခန့်မှန်းသူကိန်းရှင်များကို အသုံးပြုသည်။
ဥပမာအားဖြင့်၊ ကျွန်ုပ်တို့တွင် ကစားသည့်နှစ်များ နှင့် ပျမ်းမျှအိမ်တွင်းလည်ပတ်မှုများ နှင့် ပရော်ဖက်ရှင်နယ်ဘေ့စ်ဘောကစားသမားရာနှင့်ချီအတွက် တုံ့ပြန်မှုပြောင်းလဲနိုင်သော နှစ်စဉ်လစာများ ပါ၀င်သော ဒေတာအစုတစ်ခုရှိသည်ဆိုပါစို့။
ဤဒေတာအတွဲအတွက် ဆုတ်ယုတ်မှုသစ်ပင်၏ပုံစံသည် ဤအရာဖြစ်သည်-

သစ်ပင်၏အဓိပ္ပာယ်ဖွင့်ဆိုချက်မှာ အောက်ပါအတိုင်းဖြစ်သည်။
- 4.5 နှစ်အောက် ကစားခဲ့သော ကစားသမားများသည် ခန့်မှန်းလစာ $225.8k ရှိသည်။
- ပျမ်းမျှအားဖြင့် 4.5 နှစ်နှင့်အထက် ကစားပြီး 16.5 ထက်နည်းသော ကစားသူများသည် ပျမ်းမျှလစာ $577.6K ရှိသည်။
- ကစားခြင်းအတွေ့အကြုံ 4.5 နှစ်နှင့်အထက်ရှိသော ကစားသမားများနှင့် ပျမ်းမျှ အိမ်ကွင်း 16.5 သို့မဟုတ် ထို့ထက်ပိုသော ကစားသမားများသည် မျှော်မှန်းလစာ $975.6K ရှိသည်။
ဤပုံစံ၏ရလဒ်များသည် အလိုလိုနားလည်သဘောပေါက်သင့်သည်- အတွေ့အကြုံနှစ်များပို၍ ပျမ်းမျှအိမ်ပြန်ပြေးသည့်ကစားသမားများသည် လစာပိုမိုရရှိတတ်သည်။
ကစားသမားသစ်တစ်ယောက်ရဲ့ လစာကို ခန့်မှန်းဖို့ ဒီပုံစံကို အသုံးပြုနိုင်ပါတယ်။
ဥပမာအားဖြင့်၊ ကစားသမားတစ်ဦးသည် ၈ နှစ်ကစားခဲ့ပြီး တစ်နှစ်လျှင် ပျမ်းမျှ အိမ်ကွင်း ၁၀ ကြိမ်ကစားသည်ဆိုပါစို့။ ကျွန်ုပ်တို့၏ပုံစံအရ၊ ဤကစားသမားသည် တစ်နှစ်လစာဒေါ်လာ 577.6k ရှိမည်ဟု ကျွန်ုပ်တို့ခန့်မှန်းရပေမည်။

သစ်ပင်ပေါ်က မှတ်ချက်တချို့
- သစ်ပင်၏ထိပ်တွင်ရှိသော ပထမကြိုတင်ခန့်မှန်းကိန်းရှင်သည် အရေးကြီးဆုံးဖြစ်သည်၊ ဆိုလိုသည်မှာ တုံ့ပြန်မှုကိန်းရှင်၏တန်ဖိုးကို ခန့်မှန်းမှုအပေါ်တွင် အလွှမ်းမိုးနိုင်ဆုံးအရာဟု ဆိုနိုင်သည်။ ဤအခြေအနေတွင်၊ ကစားခဲ့သည့်နှစ်များသည် ဆားကစ်များ၏ပျမ်းမျှ လစာထက် ပိုကောင်းသည်ဟု ခန့်မှန်းသည်။
- သစ်ပင်၏အောက်ခြေရှိနေရာများကို အရွက်ဆုံများ ဟုခေါ်သည်။ ဤသစ်ပင်တွင် terminal node သုံးခုရှိသည်။
လှည်းမော်ဒယ်များ ဖန်တီးရန် အဆင့်များ
ပေးထားသောဒေတာအတွဲအတွက် CART မော်ဒယ်ကို ဖန်တီးရန် အောက်ပါအဆင့်များကို ကျွန်ုပ်တို့ အသုံးပြုနိုင်ပါသည်။
အဆင့် 1- လေ့ကျင့်ရေးဒေတာတွင် သစ်ပင်ကြီးတစ်ပင်ကို ကြီးထွားရန် recursive binary ပိုင်းခြားခြင်းကို အသုံးပြုပါ။
ပထမဦးစွာ၊ အောက်ပါနည်းလမ်းကို အသုံးပြု၍ regression tree ကို ကြီးထွားစေရန် recursive binary splitting ဟုခေါ်သော လောဘကြီးသော အယ်လဂိုရီသမ်ကို အသုံးပြုပါသည်။
- ခန့်မှန်းသူ ကိန်းရှင်များအားလုံးကို X 1 ၊ X 2 ၊ … ၊ ကျန်နေသော စံလွဲချော်မှု) အနိမ့်ဆုံးကို သုံးသပ်ပါ။ .
- အမျိုးအစားခွဲခြင်းသစ်ပင်များအတွက်၊ ရလဒ်သစ်ပင်တွင် အမျိုးအစားခွဲခြားမှု အမှားအယွင်းအနည်းဆုံးနှုန်းရှိသည်ဟူသော ခန့်မှန်းချက်နှင့် ဖြတ်ပိုင်းကို ကျွန်ုပ်တို့ရွေးချယ်သည်။
- ဤလုပ်ငန်းစဉ်ကို ပြန်လုပ်ပါ၊ terminal node တစ်ခုစီတွင် သတ်မှတ်ထားသော အနိမ့်ဆုံး အရေအတွက်ထက် နည်းနေမှသာ ရပ်တန့်ပါ။
သစ်ပင်တည်ဆောက်မှု လုပ်ငန်းစဉ်၏ အဆင့်တစ်ဆင့်စီတွင် အနာဂတ်ကို မျှော်ကြည့်ကာ အနာဂတ်အဆင့်တွင် ပိုမိုကောင်းမွန်သော သစ်ပင်ကမ္ဘာသို့ ဦးတည်မည့် ခွဲခြမ်းတစ်ခုကို ရွေးချယ်မည့်အစား ထိုအဆင့်ပေါ်အခြေခံ၍ ပြုလုပ်ရန် အကောင်းဆုံးခွဲခြမ်းကို ဆုံးဖြတ်ပေးသောကြောင့် ဤ အယ်လဂိုရီသမ်သည် လောဘကြီး ပါသည်။
အဆင့် 2- αအပေါ်အခြေခံ၍ အကောင်းဆုံးသစ်ပင်များ၏အစီအစဥ်ကိုရရှိရန် ကုန်ကျစရိတ်ရှုပ်ထွေးမှု ဖြတ်တောက်ခြင်းကို အသုံးပြုပါ။
ကျွန်ုပ်တို့သည် အပင်ကြီးများကို စိုက်ပျိုးပြီးသည်နှင့် အောက်ဖော်ပြပါအတိုင်း လုပ်ဆောင်နိုင်သော ရှုပ်ထွေးသော တံစဉ်များဟုခေါ်သော နည်းလမ်းကို အသုံးပြု၍ ၎င်းကို သုတ်သင်ရန် လိုအပ်ပါသည်။
- T terminal node များပါရှိသော ဖြစ်နိုင်သည့်သစ်ပင်တစ်ခုစီအတွက် RSS + α|T| ကို လျှော့ချမည့်သစ်ပင်ကို ရှာပါ။
- ကျွန်ုပ်တို့သည် α တန်ဖိုးကို တိုးလာသောအခါ၊ terminal node ပိုများသော သစ်ပင်များကို အပြစ်ပေးခံရကြောင်း သတိပြုပါ။ ဒါမှ သစ်ပင်က အရမ်းရှုပ်ထွေးမှာ မဟုတ်ဘူး။
ဤလုပ်ငန်းစဉ်သည် α တန်ဖိုးတစ်ခုစီအတွက် အကောင်းဆုံးသစ်ပင်များ၏ အစီအစဥ်ကို ဖြစ်ပေါ်စေသည်။
အဆင့် 3- α ကိုရွေးချယ်ရန် k-fold cross-validation ကိုသုံးပါ ။
α တန်ဖိုးတစ်ခုစီအတွက် အကောင်းဆုံးသစ်ပင်ကို ရှာတွေ့ပြီးသည်နှင့်၊ စမ်းသပ်မှုအမှားအယွင်းကို အနည်းဆုံးဖြစ်စေမည့် α တန်ဖိုးကို ရွေးချယ်ရန်အတွက် k-fold အပြန်အလှန် validation ကို အသုံးပြုနိုင်သည်။
အဆင့် 4- နောက်ဆုံးပုံစံကို ရွေးချယ်ပါ။
နောက်ဆုံးတွင်၊ ကျွန်ုပ်တို့သည် ရွေးချယ်ထားသော α တန်ဖိုးနှင့် ကိုက်ညီသော နောက်ဆုံးမော်ဒယ်ကို ရွေးချယ်သည်။
CART မော်ဒယ်များ၏ အားသာချက်များနှင့် အားနည်းချက်များ
လှည်းမော်ဒယ်များသည် အောက်ပါ အားသာချက်များကို ပေးဆောင်သည်-
- ၎င်းတို့သည် အဓိပ္ပာယ်ဖွင့်ဆိုရန် လွယ်ကူသည်။
- သူတို့က ရှင်းပြရလွယ်တယ်။
- သူတို့က မြင်ယောင်လွယ်တယ်။
- ၎င်းတို့ကို ဆုတ်ယုတ်ခြင်းနှင့် အမျိုးအစားခွဲခြားခြင်းဆိုင်ရာ ပြဿနာနှစ်ခုစလုံးတွင် အသုံးချနိုင်သည်။
သို့သော်၊ လှည်းမော်ဒယ်များသည် အောက်ပါအားနည်းချက်များရှိသည်။
- ၎င်းတို့သည် အခြားသော လိုင်းမဟုတ်သော စက်သင်ယူမှု အယ်လဂိုရီသမ်များကဲ့သို့ ကြိုတင်ခန့်မှန်းနိုင်သော တိကျမှု မရှိပါ။ သို့ရာတွင်၊ ထုပ်ပိုးခြင်း၊ မြှင့်တင်ခြင်းနှင့် ကျပန်းသစ်တောများကဲ့သို့သော နည်းလမ်းများဖြင့် ဆုံးဖြတ်ချက်သစ်ပင်များစွာကို အစုလိုက်အပြုံလိုက် အစုလိုက်အပြုံလိုက် ပြုလုပ်ခြင်းဖြင့် ၎င်းတို့၏ ခန့်မှန်းတိကျမှုကို မြှင့်တင်နိုင်ပါသည်။
ဆက်စပ်- R တွင် အမျိုးအစားခွဲခြင်းနှင့် ဆုတ်ယုတ်မှုသစ်ပင်များနှင့် အံကိုက်လုပ်နည်း