တစ်စိတ်တစ်ပိုင်း အနည်းဆုံးစတုရန်းများအကြောင်း နိဒါန်း


machine learning တွင် သင်ကြုံတွေ့ရမည့် အဖြစ်များဆုံး ပြဿနာတစ်ခုမှာ multicollinearity ဖြစ်သည်။ ဒေတာအတွဲတစ်ခုရှိ ကြိုတင်ခန့်မှန်းကိန်းရှင် နှစ်ခု သို့မဟုတ် ထို့ထက်ပိုသော ကိန်းရှင်များသည် အလွန်ဆက်စပ်နေသောအခါ ၎င်းသည် ဖြစ်ပေါ်သည်။

ထိုသို့ဖြစ်လာသောအခါ မော်ဒယ်တစ်ခုသည် လေ့ကျင့်ရေးဒေတာအစုံကို ကောင်းစွာအံဝင်ခွင်ကျနိုင်သော်လည်း ၎င်းသည် လေ့ကျင့်ရေးဒေတာအစုံ နှင့် ကိုက်ညီသော ကြောင့် မမြင်ဖူးသော ဒေတာအတွဲအသစ်တွင် ညံ့ဖျင်းစွာလုပ်ဆောင်နိုင်ပါသည်။ လေ့ကျင့်ရေးအစုံ။

Multicollinearity ၏ပြဿနာကိုဖြေရှင်းရန်နည်းလမ်းတစ်ခုမှာ မူလ p ကိန်းရှင်ကိန်းရှင်များ၏ M linear ပေါင်းစပ် မှုများ (“ principal components” ဟုခေါ်သည်) ကိုတွက်ချက်ကာ principal ကိုအသုံးပြု၍ linear regression မော်ဒယ်တစ်ခုနှင့်ကိုက်ညီရန် အနည်းဆုံးစတုရန်းပုံနည်းလမ်းကို အသုံးပြုခြင်းဖြစ်သည် ။ ခန့်မှန်းချက်များအဖြစ် အစိတ်အပိုင်းများ။

principal component regression (PCR) ၏ အားနည်းချက်မှာ principal components များကို တွက်ချက်ရာတွင် response variable ကို ထည့်သွင်းစဉ်းစားခြင်း မရှိပါ။

ယင်းအစား၊ ၎င်းသည် အဓိကအစိတ်အပိုင်းများမှဖမ်းယူထားသော ကြိုတင်ခန့်မှန်းကိန်းရှင်များအကြား ကွဲလွဲမှုပမာဏကိုသာ ထည့်သွင်းစဉ်းစားသည်။ ဤအကြောင်းကြောင့်၊ အချို့သောကိစ္စများတွင် အကြီးဆုံးသွေဖည်မှုများရှိသော အဓိကအစိတ်အပိုင်းများသည် တုံ့ပြန်မှုကိန်းရှင်ကို ကောင်းစွာမခန့်မှန်းနိုင်ခြင်းကြောင့် ဖြစ်နိုင်သည်။

PCR နှင့် ပတ်သက်သော နည်းပညာကို partial least squares ဟုခေါ်သည်။ PCR နှင့်ဆင်တူသည်၊ တစ်စိတ်တစ်ပိုင်းအနည်းဆုံးစတုရန်းများသည် M linear ပေါင်းစပ်မှုများ (“ PLS အစိတ်အပိုင်းများ” ဟုခေါ်သည်) သည် မူရင်း p ကြိုတင်တွက်ဆမှုကိန်းရှင်များ၏ M linear ပေါင်းစပ်မှုများကို တွက်ချက်ပြီး PLS အစိတ်အပိုင်းများကို ကြိုတင်ဟောကိန်းထုတ်သူများအဖြစ် အသုံးပြုထားသော linear regression model နှင့်ကိုက်ညီရန် အနည်းဆုံးစတုရန်းပုံနည်းလမ်းကို အသုံးပြုသည်။

သို့သော် PCR နှင့်မတူဘဲ၊ တစ်စိတ်တစ်ပိုင်းစတုရန်းအနည်း ဆုံးစတုရန်းများသည် တုံ့ပြန်မှုကိန်းရှင်နှင့် ကြိုတင်ခန့်မှန်းကိန်းရှင်များ နှစ်ခုလုံး တွင် ကွဲလွဲမှုကို ရှင်းပြသည့် မျဉ်းသားပေါင်းစပ်မှုများကို ရှာဖွေရန် ကြိုးပမ်းသည်။

တစ်စိတ်တစ်ပိုင်း အနည်းဆုံးစတုရန်းများကို လုပ်ဆောင်ရန် အဆင့်များ

လက်တွေ့တွင်၊ တစ်စိတ်တစ်ပိုင်း အနည်းဆုံးစတုရန်းများကို လုပ်ဆောင်ရန် အောက်ပါအဆင့်များကို အသုံးပြုပါသည်။

1. ခန့်မှန်းသူကိန်းရှင်များနှင့် တုံ့ပြန်မှုကိန်းရှင်အားလုံးတွင် ပျမ်းမျှ 0 နှင့် 1 ၏ စံသွေဖည်မှုရှိကြောင်း ဒေတာကို စံသတ်မှတ်ပါ။ ၎င်းသည် ကိန်းရှင်တစ်ခုစီကို တူညီသောစကေးဖြင့် တိုင်းတာကြောင်း သေချာစေသည်။

2. Z 1 , … , Z M ကို မူရင်း p ခန့်မှန်းသူများ၏ M linear ပေါင်းစပ်မှုများအဖြစ် တွက်ချက်ပါ။

  • Z m = ΣΦ jm _
  • Z 1 ကို တွက်ချက်ရန်အတွက် Φ j1 သည် X j တွင် Y ၏ ရိုးရှင်းသော မျဉ်းကြောင်းဆုတ်ယုတ်မှု၏ ဖော်ကိန်းနှင့် ညီမျှသည် ဟု သတ်မှတ်ခြင်းသည် ကွဲလွဲမှုကို တတ်နိုင်သမျှ ဖမ်းယူနိုင်သော မျဉ်းဖြောင့်ပေါင်းစပ်မှုဖြစ်သည်။
  • Z 2 ကို တွက်ချက်ရန် Z 1 တွင် ကိန်းရှင်တစ်ခုစီကို ပြန်ပြောင်းပြီး ကျန်ရှိသော အရာကို ယူပါ။ ထို့နောက် Z 1 တွက်ချက်ထားသည့်အတိုင်း ဤဖွဲ့စည်းပုံဒေတာကို အသုံးပြု၍ Z 2 ကို တွက်ချက်ပါ။
  • M PLS အစိတ်အပိုင်းများရရှိရန် ဤလုပ်ငန်းစဉ်ကို M ကြိမ်ပြန်လုပ်ပါ။

3. ကြိုတင်ခန့်မှန်းချက်များအဖြစ် PLS အစိတ်အပိုင်းများ Z 1 , … , Z M ကိုအသုံးပြု၍ မျဉ်းကြောင်းဆုတ်ယုတ်မှုပုံစံနှင့်ကိုက်ညီရန် အနည်းဆုံးစတုရန်းနည်းကိုသုံးပါ။

4. နောက်ဆုံးတွင်၊ မော်ဒယ်တွင်ထားရှိရန် အကောင်းဆုံး PLS အစိတ်အပိုင်းများကို ရှာဖွေရန် k-fold cross-validation ကို သုံးပါ။ ထားရှိရန် “ အကောင်းဆုံး” နံပါတ်သည် ယေဘုယျအားဖြင့် အနိမ့်ဆုံးစမ်းသပ်မှုပျမ်းမျှစတုရန်းအမှားအယွင်း (MSE) ကိုထုတ်ပေးသည့် နံပါတ်ဖြစ်သည်။

နိဂုံး

ဒေတာအတွဲတစ်ခုတွင် multicollinearity ရှိနေသည့်ကိစ္စများတွင်၊ တစ်စိတ်တစ်ပိုင်း အနည်းဆုံးစတုရန်းဆုတ်ယုတ်မှုသည် သာမန်အနည်းဆုံးစတုရန်းဆုတ်ယုတ်မှုထက် ပိုမိုကောင်းမွန်ပါသည်။ သို့သော်၊ မမြင်ရသောဒေတာအတွက် ဘယ်အရာသည် ယေဘုယျအားဖြင့် အကောင်းဆုံးဖြစ်သည်ကို သင်ခွဲခြားသိရှိနိုင်စေရန် မတူညီသော မော်ဒယ်များစွာကို အံဝင်ခွင်ကျဖြစ်စေရန် စိတ်ကူးကောင်းတစ်ခုဖြစ်သည်။

လက်တွေ့တွင်၊ ကျွန်ုပ်တို့သည် ဒေတာအတွဲတစ်ခုတွင် မတူညီသောမော်ဒယ်အမျိုးအစားများစွာ (PLS၊ PCRRidgeLassoMultiple Linear Regression စသည်ဖြင့်) ကို ဒေတာအတွဲတစ်ခုတွင် တပ်ဆင်ပြီး အကောင်းဆုံးဖြစ်သည့် MSE စမ်းသပ်မှုကို ထုတ်ပေးသည့် မော်ဒယ်ကိုသိရှိနိုင်ရန် k-fold cross-validation ကို အသုံးပြုပါသည်။ ဒေတာအသစ်ကို လျှော့ပါ။ .

မှတ်ချက်တစ်ခုထည့်ပါ။

သင့် email လိပ်စာကို ဖော်ပြမည် မဟုတ်ပါ။ လိုအပ်သော ကွက်လပ်များကို * ဖြင့်မှတ်သားထားသည်