စက်သင်ယူမှုတွင် အကောင်းဆုံး အတွဲခွဲရွေးချယ်ခြင်း (ရှင်းလင်းချက်နှင့် ဥပမာများ)

အားဖြင့် Benjamin Anderson ဇူလိုင် 27, 2023 လမ်းညွှန် 0 မှတ်ချက်များ

စက်သင်ယူမှုတွင်၊ ကျွန်ုပ်တို့သည် ကြိုတင်ခန့်မှန်းကိန်းရှင်များနှင့် တုံ့ပြန်မှုကိန်းရှင် တစ်ခုကို အသုံးပြု၍ မော်ဒယ်များကို မကြာခဏ တည်ဆောက်လိုပါသည်။ ကျွန်ုပ်တို့၏ပန်းတိုင်မှာ တုံ့ပြန်မှုကိန်းရှင်၏တန်ဖိုးကို ခန့်မှန်းရန် ခန့်မှန်းသူကိန်းရှင်များကို ထိရောက်စွာအသုံးပြုနိုင်သည့် မော်ဒယ်တစ်ခုကို တည်ဆောက်ရန်ဖြစ်သည်။

p စုစုပေါင်း ကြိုတင်ခန့်မှန်းကိန်းရှင်များ အစုံလိုက်ဖြင့် ကျွန်ုပ်တို့ တည်ဆောက်နိုင်သည့် မော်ဒယ်များစွာ ရှိပါသည်။ အကောင်းဆုံး မော်ဒယ်ကို ရွေးချယ်ရန် ကျွန်ုပ်တို့ အသုံးပြုနိုင်သည့် နည်းလမ်းတစ်ခုမှာ အကောင်းဆုံး အမျိုးအစားခွဲရွေးချယ်ခြင်း ဟု လူသိများပြီး အောက်ပါအတိုင်း လုပ်ဆောင်နိုင်သည်-

1. M ₀ ကို ကြိုတင်ခန့်မှန်းနိုင်သော ကိန်းရှင်မပါဝင်သည့် null model ဖြစ်ပါစေ။

2. k = 1၊ 2၊ … p အတွက်၊

အတိအကျ k ကြိုတင်တွက်ဆမှုများပါရှိသော _p C _k မော်ဒယ်များအားလုံးနှင့် ကိုက်ညီပါသည်။
ဤ _pCk မော်ဒယ်များထဲမှ _{အကောင်းဆုံး} ကို ရွေးပြီး _Mk ဟုခေါ်သည်။ အမြင့်ဆုံး R ² သို့မဟုတ် အနိမ့်ဆုံး RSS နှင့် ညီမျှသော မော်ဒယ်အဖြစ် “ အကောင်းဆုံး” ကို သတ်မှတ်ပါ။

3. ^M ₀ … M _p မှ အကောင်းဆုံး မော်ဒယ်တစ်ခုကို ရွေးပါ

p ခန့်မှန်းသူ variable အစုတစ်ခုအတွက် ဖြစ်နိုင်ချေ 2 ^p မော်ဒယ်များ ရှိသည်ကို သတိပြုပါ။

အကောင်းဆုံး အမျိုးအစားခွဲကို ရွေးချယ်ခြင်း ဥပမာ

ကျွန်ုပ်တို့တွင် p = 3 ခန့်မှန်းသူကိန်းရှင်နှင့် တုံ့ပြန်မှုကိန်းရှင် y ပါသော ဒေတာအစုံရှိသည်ဆိုပါစို့။ ဤဒေတာအတွဲနှင့်အတူ အကောင်းဆုံး အတွဲခွဲရွေးချယ်မှုကို လုပ်ဆောင်ရန်၊ ကျွန်ုပ်တို့သည် အောက်ပါ 2 ^p = 2 ³ = 8 မော်ဒယ်များနှင့် ကိုက်ညီပါမည်-

ကြိုတင်ခန့်မှန်းခြင်းမရှိဘဲ မော်ဒယ်
ခန့်မှန်းသူ x ₁ ပါသော မော်ဒယ်
ခန့်မှန်းသူ x ₂ ပါသော မော်ဒယ်
ခန့်မှန်းသူ x ₃ ပါသော မော်ဒယ်
x ₁ , x ₂ ခန့်မှန်းချက်များပါရှိသော မော်ဒယ်
ခန့်မှန်းချက်များ x ₁ ၊ x ₃ ပါသော မော်ဒယ်
x ₂ , x ₃ ခန့်မှန်းချက်များပါရှိသော မော်ဒယ်
ခန့်မှန်းချက်များ x ₁ ၊ x ₂ ၊ x ₃ ပါသော မော်ဒယ်

ထို့နောက် k ခန့်မှန်းချက်များပါသော မော်ဒယ်အစုံတစ်ခုစီမှ ^R2 အမြင့်ဆုံးမော်ဒယ်ကို ရွေးချယ်ပါမည်။ ဥပမာအားဖြင့်၊ ကျွန်ုပ်တို့သည် ရွေးချယ်ခြင်းကို အဆုံးသတ်နိုင်သည်-

ကြိုတင်ခန့်မှန်းခြင်းမရှိဘဲ မော်ဒယ်
ခန့်မှန်းသူ x ₂ ပါသော မော်ဒယ်
x ₁ , x ₂ ခန့်မှန်းချက်များပါရှိသော မော်ဒယ်
ခန့်မှန်းချက်များ x ₁ ၊ x ₂ ၊ x ₃ ပါသော မော်ဒယ်

ထို့နောက် ကျွန်ုပ်တို့သည် အပြန်အလှန်အတည်ပြုပြီး အနိမ့်ဆုံးခန့်မှန်းချက်အမှား၊ Cp၊ BIC၊ AIC သို့မဟုတ် ချိန်ညှိထားသော ^R2 ရလဒ်အဖြစ် အကောင်းဆုံးမော်ဒယ်ကို ရွေးချယ်ပါမည်။

ဥပမာအားဖြင့်၊ ကျွန်ုပ်တို့သည် အောက်ဖော်ပြပါ မော်ဒယ်ကို “ အကောင်းဆုံး” မော်ဒယ်အဖြစ် ရွေးချယ်ခြင်းမှာ အနိမ့်ဆုံး အပြန်အလှန်စစ်ဆေးထားသော ခန့်မှန်းမှုအမှားကို ဖန်တီးပေးသောကြောင့် အဆုံးသတ်နိုင်သည်-

x ₁ , x ₂ ခန့်မှန်းချက်များပါရှိသော မော်ဒယ်

“ အကောင်းဆုံး” မော်ဒယ်ကိုရွေးချယ်ရန်အတွက် စံသတ်မှတ်ချက်များ

အကောင်းဆုံးခွဲခွဲကို ရွေးချယ်ရာတွင် နောက်ဆုံးအဆင့်မှာ အနိမ့်ဆုံး ခန့်မှန်းချက်အမှား၊ အနိမ့်ဆုံး Cp၊ အနိမ့်ဆုံး BIC၊ အနိမ့်ဆုံး AIC သို့မဟုတ် အနိမ့်ဆုံး ချိန်ညှိထားသော ^{R2 နှင့်} မော်ဒယ်ကို ရွေးချယ်ရန်ဖြစ်သည်။ ပိုမြင့်တယ်။

ဤ မက်ထရစ်များ တစ်ခုစီကို တွက်ချက်ရန် အသုံးပြုသည့် ဖော်မြူလာများ ဖြစ်သည်-

Cp- (RSS+2dσ̂) / n

AIC- (RSS+2dσ̂ ² ) / (nσ̂ ² )

BIC- (RSS+log(n)dσ̂ ² ) / n

R ² ကို ချိန်ညှိထားသည်- 1 – ( (RSS / (nd-1)) / (TSS / (n-1))))

ရွှေ-

d- ခန့်မှန်းသူအရေအတွက်
n- စုစုပေါင်းလေ့လာတွေ့ရှိချက်
σ̂- ဆုတ်ယုတ်မှုပုံစံတစ်ခုရှိ တုံ့ပြန်မှုတိုင်းတာမှုတစ်ခုစီနှင့် ဆက်စပ်နေသော အမှားအယွင်းကွဲလွဲမှု ခန့်မှန်းချက်
RSS- ဆုတ်ယုတ်မှုပုံစံမှ အကြွင်းနှစ်ထပ်ကိန်းများ
TSS- ဆုတ်ယုတ်မှုပုံစံ၏ နှစ်ထပ်ကိန်းစုစုပေါင်း

အကောင်းဆုံးအမျိုးအစားခွဲရွေးချယ်ခြင်း၏ အားသာချက်များနှင့် အားနည်းချက်များ

အကောင်းဆုံးအမျိုးအစားခွဲကို ရွေးချယ်ခြင်းသည် အောက်ပါအကျိုးကျေးဇူးများကို ပေးဆောင်သည်-

နားလည်သဘောပေါက်ရန် ရိုးရှင်းသောချဉ်းကပ်မှုတစ်ခုဖြစ်သည်။
ကြိုတင်ခန့်မှန်းနိုင်သောကိန်းရှင်များ ပေါင်းစပ်မှုအားလုံးကို ထည့်သွင်းစဉ်းစားထားသောကြောင့် ၎င်းသည် ကျွန်ုပ်တို့အား ဖြစ်နိုင်ချေရှိသော မော်ဒယ်ကို ခွဲခြားသတ်မှတ်နိုင်စေပါသည်။

သို့သော် ဤနည်းလမ်းတွင် အောက်ပါအားနည်းချက်များရှိသည်။

ဒါက တွက်ချက်မှုအရ ပြင်းထန်နိုင်ပါတယ်။ p ခန့်မှန်းသူ variable အစုတစ်ခုအတွက်၊ ဖြစ်နိုင်ချေ 2 ^p မော်ဒယ်များ ရှိပါသည်။ ဥပမာအားဖြင့်၊ ခန့်မှန်းသူကိန်းရှင် 10 ခုဖြင့် စဉ်းစားရန် ဖြစ်နိုင်ခြေရှိသော မော်ဒယ် 2 ¹⁰ = 1000 ရှိပါသည်။
မော်ဒယ်အများအပြားကို ထည့်သွင်းစဉ်းစားသောကြောင့်၊ လေ့ကျင့်ရေးဒေတာတွင် ကောင်းမွန်စွာလုပ်ဆောင်နိုင်သော်လည်း အနာဂတ်ဒေတာအတွက်မဟုတ်ဘဲ မော်ဒယ်လ်တစ်ခုကို ရှာဖွေနိုင်မည်ဖြစ်သည်။ ဒါက overfitting ဖြစ်သွားနိုင်တယ် ။

နိဂုံး

အကောင်းဆုံးအုပ်စုခွဲကို ရွေးချယ်ခြင်းသည် အကောင်အထည်ဖော်ရန်နှင့် နားလည်ရန် ရိုးရှင်းသော်လည်း၊ ကြိုတင်ခန့်မှန်းနိုင်သောကိန်းဂဏန်းများစွာပါရှိသော ဒေတာအတွဲတစ်ခုနှင့် လုပ်ဆောင်ပါက အလွန်အကျုံးဝင်သွားနိုင်သည်။

ဤနည်းလမ်းအတွက် အခြားရွေးချယ်စရာတစ်ခုကို တွက်ချက်မှုအရ ပိုမိုထိရောက်သော stepwise ရွေးချယ်မှု ဟု ခေါ်သည်။

စာရေးသူအကြောင်း

Benjamin Anderson

မင်္ဂလာပါ၊ ကျွန်ုပ်သည် အငြိမ်းစား စာရင်းအင်း ပါမောက္ခ ဘင်ဂျမင်ဖြစ်ပြီး သီးသန့် Statorials ဆရာအဖြစ် လှည့်ပတ်ပါသည်။ စာရင်းဇယားနယ်ပယ်တွင် ကျယ်ပြန့်သောအတွေ့အကြုံနှင့် ကျွမ်းကျင်မှုနှင့်အတူ၊ Statorials မှတစ်ဆင့် ကျောင်းသားများကို ခွန်အားဖြစ်စေရန်အတွက် ကျွန်ုပ်၏အသိပညာကို မျှဝေလိုပါသည်။ ပိုသိတယ်။