အဆင့်လိုက်ရွေးချယ်ခြင်းဟူသည် အဘယ်နည်း။ (ရှင်းလင်းချက်နှင့် ဥပမာများ)
စက်သင်ယူမှုနယ်ပယ်တွင်၊ ကျွန်ုပ်တို့၏ရည်မှန်းချက်မှာ တုံ့ပြန်မှုကိန်းရှင် ၏တန်ဖိုးကို ခန့်မှန်းရန် ကြိုတင်ခန့်မှန်းသူကိန်းရှင်များအစုအဝေးကို ထိထိရောက်ရောက်အသုံးပြုနိုင်သည့် မော်ဒယ်တစ်ခုကို ဖန်တီးရန်ဖြစ်သည်။
p စုစုပေါင်း ကြိုတင်ခန့်မှန်းကိန်းရှင်များ အစုံလိုက်ဖြင့် ကျွန်ုပ်တို့ တည်ဆောက်နိုင်သည့် မော်ဒယ်များစွာ ရှိပါသည်။ အကောင်းဆုံးမော်ဒယ်ကို ရွေးချယ်ရန် ကျွန်ုပ်တို့သုံးနိုင်သည့် နည်းလမ်းတစ်ခုမှာ ခန့်မှန်းတွက်ချက်မှုများဖြင့် တည်ဆောက်နိုင်သည့် ဖြစ်နိုင်ခြေရှိသော မော်ဒယ်များ အားလုံး မှ အကောင်းဆုံးမော်ဒယ်ကို ရွေးချယ်ရန် ကြိုးစားသည့် အကောင်းဆုံးအတွဲခွဲရွေးချယ်ခြင်း ဟု လူသိများသည်။
ကံမကောင်းစွာနဲ့ပဲ ဒီနည်းလမ်းဟာ အားနည်းချက်နှစ်ခုကို ကြုံတွေ့နေရပါတယ်။
- ဒါက တွက်ချက်မှုအရ ပြင်းထန်နိုင်ပါတယ်။ p ခန့်မှန်းသူ variable အစုံအတွက်၊ ဖြစ်နိုင်ချေ 2 p မော်ဒယ်များ ရှိပါသည်။ ဥပမာအားဖြင့်၊ ခန့်မှန်းသူကိန်းရှင် 10 နှင့်အတူ၊ ထည့်သွင်းစဉ်းစားရန် ဖြစ်နိုင်သည့် မော်ဒယ် 2 10 = 1000 ရှိပါသည်။
- မော်ဒယ်အများအပြားကို ထည့်သွင်းစဉ်းစားသောကြောင့်၊ လေ့ကျင့်ရေးဒေတာတွင် ကောင်းမွန်စွာလုပ်ဆောင်နိုင်သော်လည်း အနာဂတ်ဒေတာအတွက်မဟုတ်ဘဲ မော်ဒယ်လ်တစ်ခုကို ရှာဖွေနိုင်မည်ဖြစ်သည်။ ဒါက overfitting ဖြစ်သွားနိုင်တယ်။
အကောင်းဆုံး အမျိုးအစားခွဲကို ရွေးချယ်ခြင်းအတွက် အခြားရွေးချယ်စရာတစ်ခုကို stepwise selection ဟုခေါ်သည်၊ ၎င်းသည် များစွာသေးငယ်သော မော်ဒယ်များကို နှိုင်းယှဉ်ပါသည်။
အဆင့်ရွေးချယ်ခြင်းနည်းလမ်း နှစ်မျိုးရှိသည်- ရှေ့သို့ခြေလှမ်းရွေးချယ်ခြင်းနှင့် နောက်သို့ခြေလှမ်းရွေးချယ်ခြင်း။
တစ်ဆင့်ပြီးတစ်ဆင့် ရှေ့သို့ရွေးချယ်ပါ။
တစ်ဆင့်ပြီးတစ်ဆင့် ရှေ့သို့ရွေးချယ်မှုသည် အောက်ပါအတိုင်း လုပ်ဆောင်သည်။
1. M 0 ကို ကြိုတင်ခန့်မှန်းနိုင်သော ကိန်းရှင်မပါဝင်သည့် null model ဖြစ်ပါစေ။
2. အတွက် k = 0, 2, … p-1:
- M k တွင် ကြိုတင်ခန့်မှန်းသူများကို တိုးစေသော pk မော်ဒယ်အားလုံးကို အပိုကြိုတင်ခန့်မှန်းကိန်းရှင်တစ်ခုဖြင့် ကွက်တိပါ။
- ဤ pk မော်ဒယ်များထဲမှ အကောင်းဆုံးကို ရွေးချယ်ပြီး ၎င်းကို M k+1 ဟုခေါ်ဆိုပါ။ အမြင့်ဆုံး R 2 သို့မဟုတ် အနိမ့်ဆုံး RSS နှင့် ညီမျှသော မော်ဒယ်အဖြစ် “ အကောင်းဆုံး” ကို သတ်မှတ်ပါ။
3. M 0 … M p မှ အကောင်းဆုံး မော်ဒယ်တစ်ခုကို ရွေးပါ
တစ်ဆင့်ပြီးတစ်ဆင့် နောက်ပြန်ရွေးချယ်ခြင်း။
နောက်ပြန်ခြေလှမ်းရွေးချယ်မှုသည် အောက်ပါအတိုင်း အလုပ်လုပ်သည်-
1. M p ကို ကြိုတင် ခန့်မှန်းနိုင်သော ကိန်းရှင်များ အားလုံးပါ၀င်သော ပြီးပြည့်စုံသော မော်ဒယ်ဖြစ်ပါစေ။
၂။ k = p၊ p-1၊ … 1 အတွက်၊
- စုစုပေါင်း k-1 ခန့်မှန်းသူ ကိန်းရှင်များ အတွက် Mk တွင် ခန့်မှန်းသူ တစ်ခုတည်း မှလွဲ၍ အားလုံးပါဝင်သော k မော်ဒယ်များအားလုံးနှင့် ကိုက်ညီပါ။
- ဒီ k မော်ဒယ်တွေထဲမှာ အကောင်းဆုံးကို ရွေးပြီး M k-1 လို့ ခေါ်ပါတယ်။ အမြင့်ဆုံး R 2 သို့မဟုတ် အနိမ့်ဆုံး RSS နှင့် ညီမျှသော မော်ဒယ်အဖြစ် “ အကောင်းဆုံး” ကို သတ်မှတ်ပါ။
3. M 0 … M p မှ အကောင်းဆုံး မော်ဒယ်တစ်ခုကို ရွေးပါ
“ အကောင်းဆုံး” မော်ဒယ်ကိုရွေးချယ်ရန်အတွက် စံသတ်မှတ်ချက်များ
ရှေ့နှင့်နောက်သို့ တစ်လှမ်းချင်း ရှေ့တိုးခြင်းနှင့် နောက်ပြန်ရွေးချယ်ခြင်း၏ နောက်ဆုံးအဆင့်မှာ အနိမ့်ဆုံး ခန့်မှန်းချက်အမှား၊ အနိမ့်ဆုံး Cp၊ အနိမ့်ဆုံး BIC၊ အမြင့်ဆုံး AIC အနိမ့် သို့မဟုတ် အမြင့်ဆုံး ချိန်ညှိထားသော R 2 နှင့် မော်ဒယ်ကို ရွေးချယ်ရန်ဖြစ်သည်။
ဤ မက်ထရစ်များ တစ်ခုစီကို တွက်ချက်ရန် အသုံးပြုသည့် ဖော်မြူလာများ ဖြစ်သည်-
Cp- (RSS+2dσ̂) / n
AIC- (RSS+2dσ̂ 2 ) / (nσ̂ 2 )
BIC- (RSS+log(n)dσ̂ 2 ) / n
R 2 ကို ချိန်ညှိထားသည်- 1 – ( (RSS / (nd-1)) / (TSS / (n-1))))
ရွှေ-
- d- ကြိုတင်ခန့်မှန်းသူအရေအတွက်
- n- စုစုပေါင်းလေ့လာတွေ့ရှိချက်
- σ̂- ဆုတ်ယုတ်မှုပုံစံတစ်ခုရှိ တုံ့ပြန်မှုတိုင်းတာမှုတစ်ခုစီနှင့် ဆက်စပ်နေသော အမှားအယွင်းကွဲလွဲမှု ခန့်မှန်းချက်
- RSS- ဆုတ်ယုတ်မှုပုံစံမှ အကြွင်းနှစ်ထပ်ကိန်းများ
- TSS- ဆုတ်ယုတ်မှုပုံစံ၏ နှစ်ထပ်ကိန်းစုစုပေါင်း
အဆင့်လိုက်ရွေးချယ်ခြင်း၏ အားသာချက်များနှင့် အားနည်းချက်များ
အဆင့်လိုက်ရွေးချယ်ခြင်းသည် အောက်ပါ အားသာချက်များကို ပေးဆောင်သည်-
ဤနည်းလမ်းသည် အကောင်းဆုံးအမျိုးအစားခွဲကို ရွေးချယ်ခြင်းထက် တွက်ချက်မှုအရ ပိုမိုထိရောက်သည်။ p ကြိုတွက်နိုင်သော ကိန်းရှင်များကို ပေးထားသော၊ အကောင်းဆုံး အမျိုးအစားခွဲ၏ ရွေးချယ်မှုသည် 2 p မော်ဒယ်များနှင့် ကိုက်ညီရပါမည်။
အပြန်အလှန်အားဖြင့်၊ အဆင့်လိုက်ရွေးချယ်မှုသည် 1+p(p+1)/2 မော်ဒယ်များနှင့်သာ ကိုက်ညီသင့်သည်။ p = 10 ခန့်မှန်းသူ ကိန်းရှင်များအတွက်၊ အကောင်းဆုံး အမျိုးအစားခွဲရွေးချယ်မှုသည် မော်ဒယ် 1,000 နှင့် ကိုက်ညီသင့်ပြီး အဆင့်လိုက်ရွေးချယ်မှုသည် 56 မော်ဒယ်များနှင့်သာ ကိုက်ညီသင့်ပါသည်။
သို့ရာတွင်၊ အဆင့်လိုက်ရွေးချယ်မှုတွင် အောက်ပါအလားအလာရှိသော အားနည်းချက်ရှိသည်။
ဖြစ်နိုင်ချေရှိသော 2p မော်ဒယ်များအားလုံးတွင် ဖြစ်နိုင်ချေရှိသော မော်ဒယ်ကို ရှာဖွေရန် အာမခံချက်မရှိပါ။
ဥပမာအားဖြင့်၊ ကျွန်ုပ်တို့တွင် p=3 ကြိုတင်တွက်ဆထားသော ဒေတာအတွဲတစ်ခုရှိသည်ဆိုပါစို့။ ဖြစ်နိုင်ချေရှိသော တစ်ခုတည်းသော ကြိုတင်ခန့်မှန်းမော်ဒယ်တွင် x 1 ပါဝင်နိုင်ပြီး အကောင်းဆုံးဖြစ်နိုင်သော နှစ်ထပ်ကိန်းဂဏန်းမော်ဒယ်သည် x 1 နှင့် x 2 အစား ပါနိုင်သည်။
ဤကိစ္စတွင်၊ M 1 တွင် x 1 ပါဝင်မည်ဖြစ်သောကြောင့် ရှေ့သို့ အဆင့်ဆင့်ရွေးချယ်မှုတွင် အကောင်းဆုံးဖြစ်နိုင်သော နှစ်ထပ်ကိန်းဂဏန်းမော်ဒယ်ကို ရွေးချယ်ရန် ပျက်ကွက်မည်ဖြစ်ပြီး၊ ထို့ကြောင့် M 2 တွင် x 1 နှင့် အခြားကိန်းရှင်များလည်း ပါဝင်ရပါမည်။