စက်သင်ယူမှုတွင် အကောင်းဆုံး အတွဲခွဲရွေးချယ်ခြင်း (ရှင်းလင်းချက်နှင့် ဥပမာများ)
စက်သင်ယူမှုတွင်၊ ကျွန်ုပ်တို့သည် ကြိုတင်ခန့်မှန်းကိန်းရှင်များနှင့် တုံ့ပြန်မှုကိန်းရှင် တစ်ခုကို အသုံးပြု၍ မော်ဒယ်များကို မကြာခဏ တည်ဆောက်လိုပါသည်။ ကျွန်ုပ်တို့၏ပန်းတိုင်မှာ တုံ့ပြန်မှုကိန်းရှင်၏တန်ဖိုးကို ခန့်မှန်းရန် ခန့်မှန်းသူကိန်းရှင်များကို ထိရောက်စွာအသုံးပြုနိုင်သည့် မော်ဒယ်တစ်ခုကို တည်ဆောက်ရန်ဖြစ်သည်။
p စုစုပေါင်း ကြိုတင်ခန့်မှန်းကိန်းရှင်များ အစုံလိုက်ဖြင့် ကျွန်ုပ်တို့ တည်ဆောက်နိုင်သည့် မော်ဒယ်များစွာ ရှိပါသည်။ အကောင်းဆုံး မော်ဒယ်ကို ရွေးချယ်ရန် ကျွန်ုပ်တို့ အသုံးပြုနိုင်သည့် နည်းလမ်းတစ်ခုမှာ အကောင်းဆုံး အမျိုးအစားခွဲရွေးချယ်ခြင်း ဟု လူသိများပြီး အောက်ပါအတိုင်း လုပ်ဆောင်နိုင်သည်-
1. M 0 ကို ကြိုတင်ခန့်မှန်းနိုင်သော ကိန်းရှင်မပါဝင်သည့် null model ဖြစ်ပါစေ။
2. k = 1၊ 2၊ … p အတွက်၊
- အတိအကျ k ကြိုတင်တွက်ဆမှုများပါရှိသော p C k မော်ဒယ်များအားလုံးနှင့် ကိုက်ညီပါသည်။
- ဤ pCk မော်ဒယ်များထဲမှ အကောင်းဆုံး ကို ရွေးပြီး Mk ဟုခေါ်သည်။ အမြင့်ဆုံး R 2 သို့မဟုတ် အနိမ့်ဆုံး RSS နှင့် ညီမျှသော မော်ဒယ်အဖြစ် “ အကောင်းဆုံး” ကို သတ်မှတ်ပါ။
3. M 0 … M p မှ အကောင်းဆုံး မော်ဒယ်တစ်ခုကို ရွေးပါ
p ခန့်မှန်းသူ variable အစုတစ်ခုအတွက် ဖြစ်နိုင်ချေ 2 p မော်ဒယ်များ ရှိသည်ကို သတိပြုပါ။
အကောင်းဆုံး အမျိုးအစားခွဲကို ရွေးချယ်ခြင်း ဥပမာ
ကျွန်ုပ်တို့တွင် p = 3 ခန့်မှန်းသူကိန်းရှင်နှင့် တုံ့ပြန်မှုကိန်းရှင် y ပါသော ဒေတာအစုံရှိသည်ဆိုပါစို့။ ဤဒေတာအတွဲနှင့်အတူ အကောင်းဆုံး အတွဲခွဲရွေးချယ်မှုကို လုပ်ဆောင်ရန်၊ ကျွန်ုပ်တို့သည် အောက်ပါ 2 p = 2 3 = 8 မော်ဒယ်များနှင့် ကိုက်ညီပါမည်-
- ကြိုတင်ခန့်မှန်းခြင်းမရှိဘဲ မော်ဒယ်
- ခန့်မှန်းသူ x 1 ပါသော မော်ဒယ်
- ခန့်မှန်းသူ x 2 ပါသော မော်ဒယ်
- ခန့်မှန်းသူ x 3 ပါသော မော်ဒယ်
- x 1 , x 2 ခန့်မှန်းချက်များပါရှိသော မော်ဒယ်
- ခန့်မှန်းချက်များ x 1 ၊ x 3 ပါသော မော်ဒယ်
- x 2 , x 3 ခန့်မှန်းချက်များပါရှိသော မော်ဒယ်
- ခန့်မှန်းချက်များ x 1 ၊ x 2 ၊ x 3 ပါသော မော်ဒယ်
ထို့နောက် k ခန့်မှန်းချက်များပါသော မော်ဒယ်အစုံတစ်ခုစီမှ R2 အမြင့်ဆုံးမော်ဒယ်ကို ရွေးချယ်ပါမည်။ ဥပမာအားဖြင့်၊ ကျွန်ုပ်တို့သည် ရွေးချယ်ခြင်းကို အဆုံးသတ်နိုင်သည်-
- ကြိုတင်ခန့်မှန်းခြင်းမရှိဘဲ မော်ဒယ်
- ခန့်မှန်းသူ x 2 ပါသော မော်ဒယ်
- x 1 , x 2 ခန့်မှန်းချက်များပါရှိသော မော်ဒယ်
- ခန့်မှန်းချက်များ x 1 ၊ x 2 ၊ x 3 ပါသော မော်ဒယ်
ထို့နောက် ကျွန်ုပ်တို့သည် အပြန်အလှန်အတည်ပြုပြီး အနိမ့်ဆုံးခန့်မှန်းချက်အမှား၊ Cp၊ BIC၊ AIC သို့မဟုတ် ချိန်ညှိထားသော R2 ရလဒ်အဖြစ် အကောင်းဆုံးမော်ဒယ်ကို ရွေးချယ်ပါမည်။
ဥပမာအားဖြင့်၊ ကျွန်ုပ်တို့သည် အောက်ဖော်ပြပါ မော်ဒယ်ကို “ အကောင်းဆုံး” မော်ဒယ်အဖြစ် ရွေးချယ်ခြင်းမှာ အနိမ့်ဆုံး အပြန်အလှန်စစ်ဆေးထားသော ခန့်မှန်းမှုအမှားကို ဖန်တီးပေးသောကြောင့် အဆုံးသတ်နိုင်သည်-
- x 1 , x 2 ခန့်မှန်းချက်များပါရှိသော မော်ဒယ်
“ အကောင်းဆုံး” မော်ဒယ်ကိုရွေးချယ်ရန်အတွက် စံသတ်မှတ်ချက်များ
အကောင်းဆုံးခွဲခွဲကို ရွေးချယ်ရာတွင် နောက်ဆုံးအဆင့်မှာ အနိမ့်ဆုံး ခန့်မှန်းချက်အမှား၊ အနိမ့်ဆုံး Cp၊ အနိမ့်ဆုံး BIC၊ အနိမ့်ဆုံး AIC သို့မဟုတ် အနိမ့်ဆုံး ချိန်ညှိထားသော R2 နှင့် မော်ဒယ်ကို ရွေးချယ်ရန်ဖြစ်သည်။ ပိုမြင့်တယ်။
ဤ မက်ထရစ်များ တစ်ခုစီကို တွက်ချက်ရန် အသုံးပြုသည့် ဖော်မြူလာများ ဖြစ်သည်-
Cp- (RSS+2dσ̂) / n
AIC- (RSS+2dσ̂ 2 ) / (nσ̂ 2 )
BIC- (RSS+log(n)dσ̂ 2 ) / n
R 2 ကို ချိန်ညှိထားသည်- 1 – ( (RSS / (nd-1)) / (TSS / (n-1))))
ရွှေ-
- d- ခန့်မှန်းသူအရေအတွက်
- n- စုစုပေါင်းလေ့လာတွေ့ရှိချက်
- σ̂- ဆုတ်ယုတ်မှုပုံစံတစ်ခုရှိ တုံ့ပြန်မှုတိုင်းတာမှုတစ်ခုစီနှင့် ဆက်စပ်နေသော အမှားအယွင်းကွဲလွဲမှု ခန့်မှန်းချက်
- RSS- ဆုတ်ယုတ်မှုပုံစံမှ အကြွင်းနှစ်ထပ်ကိန်းများ
- TSS- ဆုတ်ယုတ်မှုပုံစံ၏ နှစ်ထပ်ကိန်းစုစုပေါင်း
အကောင်းဆုံးအမျိုးအစားခွဲရွေးချယ်ခြင်း၏ အားသာချက်များနှင့် အားနည်းချက်များ
အကောင်းဆုံးအမျိုးအစားခွဲကို ရွေးချယ်ခြင်းသည် အောက်ပါအကျိုးကျေးဇူးများကို ပေးဆောင်သည်-
- နားလည်သဘောပေါက်ရန် ရိုးရှင်းသောချဉ်းကပ်မှုတစ်ခုဖြစ်သည်။
- ကြိုတင်ခန့်မှန်းနိုင်သောကိန်းရှင်များ ပေါင်းစပ်မှုအားလုံးကို ထည့်သွင်းစဉ်းစားထားသောကြောင့် ၎င်းသည် ကျွန်ုပ်တို့အား ဖြစ်နိုင်ချေရှိသော မော်ဒယ်ကို ခွဲခြားသတ်မှတ်နိုင်စေပါသည်။
သို့သော် ဤနည်းလမ်းတွင် အောက်ပါအားနည်းချက်များရှိသည်။
- ဒါက တွက်ချက်မှုအရ ပြင်းထန်နိုင်ပါတယ်။ p ခန့်မှန်းသူ variable အစုတစ်ခုအတွက်၊ ဖြစ်နိုင်ချေ 2 p မော်ဒယ်များ ရှိပါသည်။ ဥပမာအားဖြင့်၊ ခန့်မှန်းသူကိန်းရှင် 10 ခုဖြင့် စဉ်းစားရန် ဖြစ်နိုင်ခြေရှိသော မော်ဒယ် 2 10 = 1000 ရှိပါသည်။
- မော်ဒယ်အများအပြားကို ထည့်သွင်းစဉ်းစားသောကြောင့်၊ လေ့ကျင့်ရေးဒေတာတွင် ကောင်းမွန်စွာလုပ်ဆောင်နိုင်သော်လည်း အနာဂတ်ဒေတာအတွက်မဟုတ်ဘဲ မော်ဒယ်လ်တစ်ခုကို ရှာဖွေနိုင်မည်ဖြစ်သည်။ ဒါက overfitting ဖြစ်သွားနိုင်တယ် ။
နိဂုံး
အကောင်းဆုံးအုပ်စုခွဲကို ရွေးချယ်ခြင်းသည် အကောင်အထည်ဖော်ရန်နှင့် နားလည်ရန် ရိုးရှင်းသော်လည်း၊ ကြိုတင်ခန့်မှန်းနိုင်သောကိန်းဂဏန်းများစွာပါရှိသော ဒေတာအတွဲတစ်ခုနှင့် လုပ်ဆောင်ပါက အလွန်အကျုံးဝင်သွားနိုင်သည်။
ဤနည်းလမ်းအတွက် အခြားရွေးချယ်စရာတစ်ခုကို တွက်ချက်မှုအရ ပိုမိုထိရောက်သော stepwise ရွေးချယ်မှု ဟု ခေါ်သည်။