Ridge & lasso regression ကို ဘယ်အချိန်မှာ သုံးမလဲ။

အားဖြင့် Benjamin Anderson ဇူလိုင် 23, 2023 လမ်းညွှန် 0 မှတ်ချက်များ

သာမာန် မျဉ်းကြောင်းမျိုးစုံဆုတ်ယုတ်မှု တွင်၊ ကျွန်ုပ်တို့သည် ပုံစံတစ်ခု၏မော်ဒယ်နှင့်ကိုက်ညီရန် p ကြိုတင်ခန့်မှန်းကိန်းရှင် ကိန်းရှင်များနှင့် တုံ့ပြန်မှုကိန်းရှင်တစ်ခုကို အသုံးပြုသည်-

Y = β ₀ + β ₁ X ₁ ₊ β ₂ X ₂ + … + β _p

β ₀ , β ₁ , B ₂ , … , β _p ၏ တန်ဖိုးများကို အကြွင်းအကျန်များ (RSS) ၏ လေးထောင့်ပေါင်းကို နည်းပါးအောင်ပြုလုပ်သည့် အနည်းဆုံး စတုရန်းပုံနည်းလမ်းကို အသုံးပြု၍ ရွေးချယ်ထားသည်။

RSS = Σ(y _i – ŷ _i ) ^၂

ရွှေ-

∑ : “ပေါင်း” ဟူသော သင်္ကေတ၊
y _i : ^{အိုင်တီ} လေ့လာခြင်းအတွက် အမှန်တကယ် တုံ့ပြန်မှုတန်ဖိုး
ŷ _i : i ^th observation အတွက် ခန့်မှန်းထားသော တုံ့ပြန်မှုတန်ဖိုး

ဆုတ်ယုတ်မှုတွင် ကော်လီနရီ မျိုးစုံ၏ ပြဿနာ

မျဉ်း ကြောင်း အတိုင်း ဆုတ်ယုတ်မှုများစွာဖြင့် လက်တွေ့တွင် ပေါ်ပေါက်လေ့ရှိသည့် ပြဿနာတစ်ခုမှာ ဆုတ်ယုတ်မှုပုံစံတွင် ထူးခြားသော သို့မဟုတ် အမှီအခိုကင်းသော အချက်အလက်များကို မပေးဆောင်ခြင်းဖြစ်သည့် ကြိုတင်ခန့်မှန်းကိန်းရှင်နှစ်ခု သို့မဟုတ် ထို့ထက်ပိုသော ကိန်းရှင်များသည် တစ်ခုနှင့်တစ်ခု အလွန်ဆက်စပ်နေသောအခါတွင်၊ ၎င်းတို့သည် ဆုတ်ယုတ်မှုပုံစံတွင် ထူးခြားသော သို့မဟုတ် အမှီအခိုကင်းသော အချက်အလက်များကို ပေးစွမ်းနိုင်ခြင်း မရှိသည့်အခါတွင် များပြားလှပါသည်။

၎င်းသည် မော်ဒယ်ဖော်ကိန်း ခန့်မှန်းချက်များကို ယုံကြည်စိတ်ချမှုမရှိစေဘဲ ကွဲပြားမှုမြင့်မားမှုကို ပြသနိုင်သည်။ ဆိုလိုသည်မှာ၊ မော်ဒယ်ကို ယခင်က တစ်ခါမှမမြင်ဖူးသော ဒေတာအစုအသစ်တစ်ခုသို့ အသုံးချသောအခါ၊ ၎င်းသည် ညံ့ဖျင်းစွာ လုပ်ဆောင်နိုင်ဖွယ်ရှိသည်။

Multicollinearity ကိုရှောင်ကြဉ်ခြင်း- Ridge & Lasso ဆုတ်ယုတ်မှု

ဒီ multicollinearity ပြဿနာကို ပြေလည်အောင် ဖြေရှင်းဖို့ နည်းလမ်းနှစ်ခုကတော့ ridge regression နဲ့ lasso regression ဖြစ်ပါတယ်။

Ridge regression သည် အောက်ပါတို့ကို လျှော့ချရန် ကြိုးပမ်းသည် ။

RSS + λΣβ _j ^၂

Lasso ဆုတ်ယုတ်မှု သည် အောက်ပါတို့ကို လျှော့ချရန် ကြိုးပမ်းသည်-

RSS + λΣ|β _j |

ညီမျှခြင်းနှစ်ခုစလုံးတွင် ဒုတိယအခေါ်အဝေါ်ကို ရုပ်သိမ်းပြစ်ဒဏ် ဟု ခေါ်သည်။

λ = 0 ဖြစ်သောအခါ၊ ဤပြစ်ဒဏ်အသုံးအနှုန်းသည် အကျိုးသက်ရောက်မှုမရှိပါ၊ အခေါင်ဆုတ်ယုတ်မှုနှင့် lasso ဆုတ်ယုတ်မှုသည် တူညီသောကိန်းဂဏန်းခန့်မှန်းချက်ကို အနည်းဆုံးစတုရန်းများအဖြစ် ထုတ်လုပ်သည်။

သို့သော်၊ λ အနန္တသို့ ချဉ်းကပ်လာသည်နှင့်အမျှ၊ ကျုံ့ခြင်းပြစ်ဒဏ်သည် သုညသို့ မော်ဒယ်သို့ ကျဆင်းခြင်းသို့ မတင်သွင်းနိုင်သော သြဇာကြီးမားပြီး ခန့်မှန်းရကိန်းရှင်များ ပိုမိုဖြစ်လာသည်။

Lasso ဆုတ်ယုတ်မှုနှင့်အတူ၊ အချို့သောကိန်းဂဏန်းများသည် λ အလုံအလောက်ကြီးလာသောအခါ လုံးဝသုည ဖြစ်သွားနိုင်သည်။

Ridge & Lasso Regression ၏ အားသာချက်များနှင့် အားနည်းချက်များ

Ridge နှင့် Lasso ဆုတ်ယုတ်မှု၏ အားသာချက် မှာ ဘက်လိုက်-ကွဲလွဲမှု ဖလှယ်မှု ဖြစ်သည်။

Mean Square Error (MSE) သည် ပေးထားသော မော်ဒယ်တစ်ခု၏ တိကျမှုကို တိုင်းတာရန် အသုံးပြုနိုင်သည့် မက်ထရစ်တစ်ခုဖြစ်ပြီး ၎င်းကို အောက်ပါအတိုင်း တွက်ချက်ထားသည်-

MSE = Var( f̂( x ₀ )) + [Bias( f̂( x ₀ ))] ² + Var(ε)

MSE = Variance + Bias ² + Irreducible အမှား

Ridge Regression နှင့် Lasso Regression ၏ အခြေခံ အယူအဆမှာ ကွဲလွဲမှုကို သိသာထင်ရှားစွာ လျှော့ချနိုင်ပြီး အလုံးစုံ MSE ကို နိမ့်ကျစေရန် သေးငယ်သော ဘက်လိုက်မှုကို မိတ်ဆက်ရန် ဖြစ်သည်။

ယင်းကို သရုပ်ဖော်ရန် အောက်ပါဂရပ်ကို သုံးသပ်ပါ။

Ridge Regression Bias-Variance Tradeoff

λ တိုးလာသည်နှင့်အမျှ ဘက်လိုက်မှု အနည်းငယ်တိုးလာသဖြင့် ကွဲလွဲမှု သိသိသာသာ လျော့ကျသွားသည်ကို သတိပြုပါ။ သို့ရာတွင်၊ အချို့သောအချက်ကိုကျော်လွန်ပါက၊ ကွဲလွဲမှုသည် လျင်မြန်စွာလျော့နည်းသွားပြီး ကိန်းဂဏန်းများ ကျဆင်းခြင်းသည် ၎င်းတို့ကို သိသိသာသာလျှော့တွက်ခြင်းဆီသို့ ဦးတည်စေပြီး ဘက်လိုက်မှုတွင် သိသိသာသာတိုးလာစေသည်။

ဘက်လိုက်မှု နှင့် ကွဲပြားမှုကြား အကောင်းမွန်ဆုံးသော အပေးအယူကို ထုတ်ပေးသည့် λ တန်ဖိုးကို ရွေးချယ်သောအခါ စမ်းသပ်မှု၏ MSE သည် အနိမ့်ဆုံးဖြစ်ကြောင်း ဂရပ်မှ မြင်တွေ့နိုင်သည်။

λ = 0 ဖြစ်သောအခါ၊ lasso ဆုတ်ယုတ်မှုတွင် ပြစ်ဒဏ်အသုံးအနှုန်းသည် အကျိုးသက်ရောက်မှုမရှိသောကြောင့် တူညီသောကိန်းဂဏန်းခန့်မှန်းချက်ကို အနည်းဆုံးစတုရန်းအဖြစ်ထုတ်ပေးသည်။ သို့သော်၊ အချို့သောအချက်တစ်ခုသို့ λ ကိုတိုးမြှင့်ခြင်းဖြင့်၊ ကျွန်ုပ်တို့သည် စမ်းသပ်မှု၏ MSE တစ်ခုလုံးကို လျှော့ချနိုင်သည်။

Lasso Regression Bias-Variance Tradeoff

ဆိုလိုသည်မှာ အခေါင်နှင့် lasso ဆုတ်ယုတ်မှုဖြင့် အံဝင်ခွင်ကျရှိသော မော်ဒယ်သည် အနည်းဆုံး စတုရန်းထပ်ဆုတ်ခြင်းဖြင့် မော်ဒယ်နှင့် ကိုက်ညီသည်ထက် သေးငယ်သော စမ်းသပ်မှုအမှားများကို ထုတ်လုပ်နိုင်သည်ဟု ဆိုလိုသည်။

Ridge နှင့် Lasso ဆုတ်ယုတ်မှု၏ အားနည်းချက် မှာ နောက်ဆုံးပုံစံတွင် ကိန်းများကို သုညသို့ ကျုံ့သွားသည့်အတွက် အဓိပ္ပါယ်ပြန်ဆိုရန် ခက်ခဲလာခြင်းဖြစ်သည်။

ထို့ကြောင့် ကောက်ချက်ချနိုင်စွမ်းကို အနုမာနထက် ပိုကောင်းအောင်ပြုလုပ်လိုသောအခါတွင် Ridge နှင့် Lasso ဆုတ်ယုတ်မှုကို အသုံးပြုသင့်သည်။

ခေါင် vs. Lasso Regression- တစ်ခုစီကို ဘယ်အချိန်မှာ သုံးမလဲ။

L asso regression နှင့် ridge regression တို့ကို ပုံမှန်ပြုလုပ်ခြင်းနည်းလမ်းများ အဖြစ် လူသိများပြီး ၎င်းတို့နှစ်ဦးစလုံးသည် ကျန်ရှိသော စတုရန်းများ (RSS) နှင့် အချို့သော ပြစ်ဒဏ်သက်တမ်းကို လျှော့ချရန် ကြိုးပမ်းသောကြောင့် ဖြစ်သည်။

တစ်နည်းဆိုရသော်၊ ၎င်းတို့သည် မော်ဒယ်ကိန်းဂဏန်းများ၏ ခန့်မှန်းချက်များကို ကန့်သတ်ခြင်း သို့မဟုတ် ပုံမှန်ပြုလုပ်ခြင်း ဖြစ်သည် ။

ဤသည်မှာ သဘာဝအားဖြင့် မေးစရာရှိလာသည်- ခေါင် သို့မဟုတ် lasso regression ပိုကောင်းသလား။

ခန့်မှန်းသူကိန်းရှင်အနည်းငယ်သာ သိသာထင်ရှားသည့်ကိစ္စများတွင်၊ lasso ဆုတ်ယုတ်မှုမှာ အရေးမပါသောကိန်းရှင်များကို သုညအထိ လုံးလုံးလျှော့ချနိုင်ပြီး ၎င်းတို့ကို မော်ဒယ်မှဖယ်ရှားနိုင်သောကြောင့် ပိုကောင်းပါသည်။

သို့သော်၊ မော်ဒယ်တွင် ခန့်မှန်းသူကိန်းရှင်များစွာသည် သိသာထင်ရှားပြီး ၎င်းတို့၏ coefficients သည် ခန့်မှန်းခြေအားဖြင့် တူညီသောအခါ၊ ခေါင်ဆုတ်ဆုတ်ခြင်းသည် မော်ဒယ်တွင် ကြိုတင်ခန့်မှန်းသူအားလုံးကို ထိန်းသိမ်းထားသောကြောင့် ပိုကောင်းပါသည်။

ကြိုတင်ခန့်မှန်းမှုများပြုလုပ်ရန်အတွက် မည်သည့်မော်ဒယ်သည် အကောင်းဆုံးဖြစ်သည်ကို ဆုံးဖြတ်ရန်၊ ကျွန်ုပ်တို့သည် ပုံမှန်အားဖြင့် k-fold cross-validation ပြုလုပ်ပြီး အနိမ့်ဆုံး test root mean square error ကိုထုတ်ပေးသည့် မော်ဒယ်ကို ရွေးချယ်ပါသည်။

ထပ်လောင်းအရင်းအမြစ်များ

အောက်ပါသင်ခန်းစာများသည် Ridge Regression နှင့် Lasso Regression တို့ကို နိဒါန်းပေးပါသည်။

အောက်ဖော်ပြပါ သင်ခန်းစာများသည် R နှင့် Python တွင် ဆုတ်ယုတ်မှု အမျိုးအစားနှစ်မျိုးလုံးကို မည်သို့လုပ်ဆောင်ရမည်ကို ရှင်းပြသည်-

စာရေးသူအကြောင်း

Benjamin Anderson

မင်္ဂလာပါ၊ ကျွန်ုပ်သည် အငြိမ်းစား စာရင်းအင်း ပါမောက္ခ ဘင်ဂျမင်ဖြစ်ပြီး သီးသန့် Statorials ဆရာအဖြစ် လှည့်ပတ်ပါသည်။ စာရင်းဇယားနယ်ပယ်တွင် ကျယ်ပြန့်သောအတွေ့အကြုံနှင့် ကျွမ်းကျင်မှုနှင့်အတူ၊ Statorials မှတစ်ဆင့် ကျောင်းသားများကို ခွန်အားဖြစ်စေရန်အတွက် ကျွန်ုပ်၏အသိပညာကို မျှဝေလိုပါသည်။ ပိုသိတယ်။