အဆင့်လိုက်ရွေးချယ်ခြင်းဟူသည် အဘယ်နည်း။ (ရှင်းလင်းချက်နှင့် ဥပမာများ)

အားဖြင့် Benjamin Anderson ဇူလိုင် 27, 2023 လမ်းညွှန် 0 မှတ်ချက်များ

စက်သင်ယူမှုနယ်ပယ်တွင်၊ ကျွန်ုပ်တို့၏ရည်မှန်းချက်မှာ တုံ့ပြန်မှုကိန်းရှင် ၏တန်ဖိုးကို ခန့်မှန်းရန် ကြိုတင်ခန့်မှန်းသူကိန်းရှင်များအစုအဝေးကို ထိထိရောက်ရောက်အသုံးပြုနိုင်သည့် မော်ဒယ်တစ်ခုကို ဖန်တီးရန်ဖြစ်သည်။

p စုစုပေါင်း ကြိုတင်ခန့်မှန်းကိန်းရှင်များ အစုံလိုက်ဖြင့် ကျွန်ုပ်တို့ တည်ဆောက်နိုင်သည့် မော်ဒယ်များစွာ ရှိပါသည်။ အကောင်းဆုံးမော်ဒယ်ကို ရွေးချယ်ရန် ကျွန်ုပ်တို့သုံးနိုင်သည့် နည်းလမ်းတစ်ခုမှာ ခန့်မှန်းတွက်ချက်မှုများဖြင့် တည်ဆောက်နိုင်သည့် ဖြစ်နိုင်ခြေရှိသော မော်ဒယ်များ အားလုံး မှ အကောင်းဆုံးမော်ဒယ်ကို ရွေးချယ်ရန် ကြိုးစားသည့် အကောင်းဆုံးအတွဲခွဲရွေးချယ်ခြင်း ဟု လူသိများသည်။

ကံမကောင်းစွာနဲ့ပဲ ဒီနည်းလမ်းဟာ အားနည်းချက်နှစ်ခုကို ကြုံတွေ့နေရပါတယ်။

ဒါက တွက်ချက်မှုအရ ပြင်းထန်နိုင်ပါတယ်။ p ခန့်မှန်းသူ variable အစုံအတွက်၊ ဖြစ်နိုင်ချေ 2 ^p မော်ဒယ်များ ရှိပါသည်။ ဥပမာအားဖြင့်၊ ခန့်မှန်းသူကိန်းရှင် 10 နှင့်အတူ၊ ထည့်သွင်းစဉ်းစားရန် ဖြစ်နိုင်သည့် မော်ဒယ် 2 ¹⁰ = 1000 ရှိပါသည်။
မော်ဒယ်အများအပြားကို ထည့်သွင်းစဉ်းစားသောကြောင့်၊ လေ့ကျင့်ရေးဒေတာတွင် ကောင်းမွန်စွာလုပ်ဆောင်နိုင်သော်လည်း အနာဂတ်ဒေတာအတွက်မဟုတ်ဘဲ မော်ဒယ်လ်တစ်ခုကို ရှာဖွေနိုင်မည်ဖြစ်သည်။ ဒါက overfitting ဖြစ်သွားနိုင်တယ်။

အကောင်းဆုံး အမျိုးအစားခွဲကို ရွေးချယ်ခြင်းအတွက် အခြားရွေးချယ်စရာတစ်ခုကို stepwise selection ဟုခေါ်သည်၊ ၎င်းသည် များစွာသေးငယ်သော မော်ဒယ်များကို နှိုင်းယှဉ်ပါသည်။

အဆင့်ရွေးချယ်ခြင်းနည်းလမ်း နှစ်မျိုးရှိသည်- ရှေ့သို့ခြေလှမ်းရွေးချယ်ခြင်းနှင့် နောက်သို့ခြေလှမ်းရွေးချယ်ခြင်း။

တစ်ဆင့်ပြီးတစ်ဆင့် ရှေ့သို့ရွေးချယ်ပါ။

တစ်ဆင့်ပြီးတစ်ဆင့် ရှေ့သို့ရွေးချယ်မှုသည် အောက်ပါအတိုင်း လုပ်ဆောင်သည်။

1. M ₀ ကို ကြိုတင်ခန့်မှန်းနိုင်သော ကိန်းရှင်မပါဝင်သည့် null model ဖြစ်ပါစေ။

2. အတွက် k = 0, 2, … p-1:

M _k တွင် ကြိုတင်ခန့်မှန်းသူများကို တိုးစေသော pk မော်ဒယ်အားလုံးကို အပိုကြိုတင်ခန့်မှန်းကိန်းရှင်တစ်ခုဖြင့် ကွက်တိပါ။
ဤ pk မော်ဒယ်များထဲမှ အကောင်းဆုံးကို ရွေးချယ်ပြီး ၎င်းကို M _k+1 ဟုခေါ်ဆိုပါ။ အမြင့်ဆုံး R ² သို့မဟုတ် အနိမ့်ဆုံး RSS နှင့် ညီမျှသော မော်ဒယ်အဖြစ် “ အကောင်းဆုံး” ကို သတ်မှတ်ပါ။

3. ^M ₀ … M _p မှ အကောင်းဆုံး မော်ဒယ်တစ်ခုကို ရွေးပါ

တစ်ဆင့်ပြီးတစ်ဆင့် နောက်ပြန်ရွေးချယ်ခြင်း။

နောက်ပြန်ခြေလှမ်းရွေးချယ်မှုသည် အောက်ပါအတိုင်း အလုပ်လုပ်သည်-

1. M _{p ကို} ကြိုတင် ခန့်မှန်းနိုင်သော ကိန်းရှင်များ အားလုံးပါ၀င်သော ပြီးပြည့်စုံသော မော်ဒယ်ဖြစ်ပါစေ။

၂။ k = p၊ p-1၊ … 1 အတွက်၊

စုစုပေါင်း k-1 ခန့်မှန်းသူ ကိန်းရှင်များ အတွက် _Mk တွင် ခန့်မှန်းသူ တစ်ခုတည်း မှလွဲ၍ အားလုံးပါဝင်သော k မော်ဒယ်များအားလုံးနှင့် ကိုက်ညီပါ။
ဒီ k မော်ဒယ်တွေထဲမှာ အကောင်းဆုံးကို ရွေးပြီး M _k-1 လို့ ခေါ်ပါတယ်။ အမြင့်ဆုံး R ² သို့မဟုတ် အနိမ့်ဆုံး RSS နှင့် ညီမျှသော မော်ဒယ်အဖြစ် “ အကောင်းဆုံး” ကို သတ်မှတ်ပါ။

3. ^M ₀ … M _p မှ အကောင်းဆုံး မော်ဒယ်တစ်ခုကို ရွေးပါ

“ အကောင်းဆုံး” မော်ဒယ်ကိုရွေးချယ်ရန်အတွက် စံသတ်မှတ်ချက်များ

ရှေ့နှင့်နောက်သို့ တစ်လှမ်းချင်း ရှေ့တိုးခြင်းနှင့် နောက်ပြန်ရွေးချယ်ခြင်း၏ နောက်ဆုံးအဆင့်မှာ အနိမ့်ဆုံး ခန့်မှန်းချက်အမှား၊ အနိမ့်ဆုံး Cp၊ အနိမ့်ဆုံး BIC၊ အမြင့်ဆုံး AIC အနိမ့် သို့မဟုတ် အမြင့်ဆုံး ချိန်ညှိထားသော R ² နှင့် မော်ဒယ်ကို ရွေးချယ်ရန်ဖြစ်သည်။

ဤ မက်ထရစ်များ တစ်ခုစီကို တွက်ချက်ရန် အသုံးပြုသည့် ဖော်မြူလာများ ဖြစ်သည်-

Cp- (RSS+2dσ̂) / n

AIC- (RSS+2dσ̂ ² ) / (nσ̂ ² )

BIC- (RSS+log(n)dσ̂ ² ) / n

R ² ကို ချိန်ညှိထားသည်- 1 – ( (RSS / (nd-1)) / (TSS / (n-1))))

ရွှေ-

d- ကြိုတင်ခန့်မှန်းသူအရေအတွက်
n- စုစုပေါင်းလေ့လာတွေ့ရှိချက်
σ̂- ဆုတ်ယုတ်မှုပုံစံတစ်ခုရှိ တုံ့ပြန်မှုတိုင်းတာမှုတစ်ခုစီနှင့် ဆက်စပ်နေသော အမှားအယွင်းကွဲလွဲမှု ခန့်မှန်းချက်
RSS- ဆုတ်ယုတ်မှုပုံစံမှ အကြွင်းနှစ်ထပ်ကိန်းများ
TSS- ဆုတ်ယုတ်မှုပုံစံ၏ နှစ်ထပ်ကိန်းစုစုပေါင်း

အဆင့်လိုက်ရွေးချယ်ခြင်း၏ အားသာချက်များနှင့် အားနည်းချက်များ

အဆင့်လိုက်ရွေးချယ်ခြင်းသည် အောက်ပါ အားသာချက်များကို ပေးဆောင်သည်-

ဤနည်းလမ်းသည် အကောင်းဆုံးအမျိုးအစားခွဲကို ရွေးချယ်ခြင်းထက် တွက်ချက်မှုအရ ပိုမိုထိရောက်သည်။ p ကြိုတွက်နိုင်သော ကိန်းရှင်များကို ပေးထားသော၊ အကောင်းဆုံး အမျိုးအစားခွဲ၏ ရွေးချယ်မှုသည် 2 ^p မော်ဒယ်များနှင့် ကိုက်ညီရပါမည်။

အပြန်အလှန်အားဖြင့်၊ အဆင့်လိုက်ရွေးချယ်မှုသည် 1+p(p+1)/2 မော်ဒယ်များနှင့်သာ ကိုက်ညီသင့်သည်။ p = 10 ခန့်မှန်းသူ ကိန်းရှင်များအတွက်၊ အကောင်းဆုံး အမျိုးအစားခွဲရွေးချယ်မှုသည် မော်ဒယ် 1,000 နှင့် ကိုက်ညီသင့်ပြီး အဆင့်လိုက်ရွေးချယ်မှုသည် 56 မော်ဒယ်များနှင့်သာ ကိုက်ညီသင့်ပါသည်။

သို့ရာတွင်၊ အဆင့်လိုက်ရွေးချယ်မှုတွင် အောက်ပါအလားအလာရှိသော အားနည်းချက်ရှိသည်။

ဖြစ်နိုင်ချေရှိသော ^2p မော်ဒယ်များအားလုံးတွင် ဖြစ်နိုင်ချေရှိသော မော်ဒယ်ကို ရှာဖွေရန် အာမခံချက်မရှိပါ။

ဥပမာအားဖြင့်၊ ကျွန်ုပ်တို့တွင် p=3 ကြိုတင်တွက်ဆထားသော ဒေတာအတွဲတစ်ခုရှိသည်ဆိုပါစို့။ ဖြစ်နိုင်ချေရှိသော တစ်ခုတည်းသော ကြိုတင်ခန့်မှန်းမော်ဒယ်တွင် x ₁ ပါဝင်နိုင်ပြီး အကောင်းဆုံးဖြစ်နိုင်သော နှစ်ထပ်ကိန်းဂဏန်းမော်ဒယ်သည် x ₁ နှင့် x ₂ အစား ပါနိုင်သည်။

ဤကိစ္စတွင်၊ M ₁ တွင် x ₁ ပါဝင်မည်ဖြစ်သောကြောင့် ရှေ့သို့ အဆင့်ဆင့်ရွေးချယ်မှုတွင် အကောင်းဆုံးဖြစ်နိုင်သော နှစ်ထပ်ကိန်းဂဏန်းမော်ဒယ်ကို ရွေးချယ်ရန် ပျက်ကွက်မည်ဖြစ်ပြီး၊ ထို့ကြောင့် M ₂ တွင် x ₁ နှင့် အခြားကိန်းရှင်များလည်း ပါဝင်ရပါမည်။

စာရေးသူအကြောင်း

Benjamin Anderson

မင်္ဂလာပါ၊ ကျွန်ုပ်သည် အငြိမ်းစား စာရင်းအင်း ပါမောက္ခ ဘင်ဂျမင်ဖြစ်ပြီး သီးသန့် Statorials ဆရာအဖြစ် လှည့်ပတ်ပါသည်။ စာရင်းဇယားနယ်ပယ်တွင် ကျယ်ပြန့်သောအတွေ့အကြုံနှင့် ကျွမ်းကျင်မှုနှင့်အတူ၊ Statorials မှတစ်ဆင့် ကျောင်းသားများကို ခွန်အားဖြစ်စေရန်အတွက် ကျွန်ုပ်၏အသိပညာကို မျှဝေလိုပါသည်။ ပိုသိတယ်။