Principal component regression အကြောင်း နိဒါန်း

အားဖြင့် Benjamin Anderson ဇူလိုင် 27, 2023 လမ်းညွှန် 0 မှတ်ချက်များ

မော်ဒယ်များ ဖန်တီးရာတွင် သင်ကြုံတွေ့ရမည့် အဖြစ်များဆုံး ပြဿနာတစ်ခုမှာ multicollinearity ဖြစ်သည်။ ဒေတာအတွဲတစ်ခုရှိ ကြိုတင်ခန့်မှန်းကိန်းရှင် နှစ်ခု သို့မဟုတ် ထို့ထက်ပိုသော ကိန်းရှင်များသည် အလွန်ဆက်စပ်နေသောအခါ ၎င်းသည် ဖြစ်ပေါ်သည်။

ထိုသို့ဖြစ်လာသောအခါ၊ ပေးထားသောပုံစံသည် လေ့ကျင့်ရေးဒေတာအစုံကို ကောင်းစွာအံဝင်ခွင်ကျဖြစ်စေနိုင်သော်လည်း ၎င်းသည် လေ့ကျင့်ရေးအစုနှင့် ကိုက်ညီသောကြောင့် ၎င်းသည် မမြင်ဖူးသောဒေတာအစုံအသစ်တွင် ညံ့ ဖျင်း သွားဖွယ်ရှိသည်။

အလွန်အကျွံမဖြစ်အောင် ရှောင်ရန်တစ်နည်းမှာ အမျိုးအစား ခွဲရွေးချယ်ရေး နည်းလမ်းအချို့ကို အသုံးပြုရန်ဖြစ်သည်-

ဤနည်းလမ်းများသည် မသက်ဆိုင်သော ကြိုတင်ခန့်မှန်းသူများကို မော်ဒယ်မှ ဖယ်ရှားရန် ကြိုးပမ်းသောကြောင့် တုံ့ပြန်မှုကိန်းရှင်၏ ကွဲပြားမှုကို ခန့်မှန်းနိုင်သည့် အရေးကြီးဆုံးသော ကြိုတင်ခန့်မှန်းသူများကိုသာ နောက်ဆုံးမော်ဒယ်တွင် ကျန်ခဲ့သည်။

အလွန်အကျွံဝတ်ခြင်းကို ရှောင်ရှားရန် အခြားနည်းလမ်းမှာ ပုံမှန်ပြုလုပ်ခြင်း နည်းလမ်းအချို့ကို အသုံးပြုခြင်းဖြစ်သည်-။

ဤနည်းလမ်းများသည် ကွဲလွဲမှုကို လျှော့ချရန် မော်ဒယ်တစ်ခု၏ ကိန်းဂဏန်းများကို ကန့်သတ်ရန် သို့မဟုတ် ပုံမှန်ပြုလုပ်ရန် ကြိုးပမ်းပြီး ဒေတာအသစ်များကို ကောင်းစွာ ယေဘုယျဖော်ပြနိုင်သော မော်ဒယ်များကို ထုတ်လုပ်ပေးပါသည်။

Multicollinearity နှင့် ဆက်ဆံရာတွင် လုံးဝကွဲပြားသောချဉ်းကပ်မှုကို Dimensional Reduction ဟုခေါ်သည်။

အတိုင်းအတာ လျှော့ချခြင်း၏ ဘုံနည်းလမ်းကို အဓိက အစိတ်အပိုင်း ဆုတ်ယုတ်ခြင်း ဟု လူသိများပြီး အောက်ပါအတိုင်း လုပ်ဆောင်သည်။

1. _{ပေးထားသော} ဒေတာအတွဲတွင် p _{ခန့်မှန်းပေးသူများ} ပါဝင်သည်ဟု ယူဆပါ _–

2. Z ₁ , … , Z _{M ကို} မူရင်း p ခန့်မှန်းသူများ၏ M linear ပေါင်းစပ်မှုများအဖြစ် တွက်ချက်ပါ။

_Z _m ₌ _ΣΦ _jm _{_}
Z ₁ သည် ကွဲလွဲမှုကို တတ်နိုင်သမျှ ဖမ်းယူနိုင်သော ခန့်မှန်းသူများ၏ မျဉ်းဖြောင့်ပေါင်းစပ်မှုဖြစ်သည်။
Z ₂ သည် အစီအစဥ်အတိုင်း (ဆိုလိုသည်မှာ Z ₁ မှ ဆက်စပ်မှုမရှိသော) ဖြစ်နေစဉ် ကွဲလွဲမှုကို အများဆုံးဖမ်းယူမည့် ခန့်မှန်းသူများ၏နောက်ထပ်တစ်ပြေးညီပေါင်းစပ်မှုဖြစ်သည်။
ထို့နောက် Z ₃ သည် Z ₂ သို့ အစီအစဥ်အတိုင်းဖြစ်နေစဉ် ကွဲလွဲမှုအရှိဆုံးကို ဖမ်းယူမည့် ခန့်မှန်းတွက်ချက်မှုများ၏နောက်ထပ်တစ်ပြေးညီပေါင်းစပ်မှုဖြစ်သည်။
နောက် … ပြီးတော့။

3. ခန့်မှန်းချက်များအဖြစ် ပထမ M အဓိကအစိတ်အပိုင်းများ Z ₁ , …, Z _M ကို အသုံးပြု၍ linear regression model နှင့်ကိုက်ညီရန် အနည်းဆုံးစတုရန်းနည်းကိုသုံးပါ။

အတိုင်းအတာလျှော့ချခြင်း ဟူသော ဝေါဟာရသည် M<p နေရာတွင် p+1 coefficient များအစား M+1 coefficients များကိုသာ ခန့်မှန်းရမည်ဟူသောအချက်မှ ဆင်းသက်လာခြင်းဖြစ်သည်။

တစ်နည်းဆိုရသော် ပြဿနာ၏ အတိုင်းအတာကို p+1 မှ M+1 သို့ လျှော့ချထားသည်။

ဒေတာအတွဲတစ်ခုတွင် multicollinearity ရှိနေသည့်ကိစ္စများတွင်၊ အဓိကအစိတ်အပိုင်းဆုတ်ယုတ်မှုသည် သမားရိုးကျ multiple linear regression ထက် သာလွန်ကောင်းမွန်သော ဒေတာအသစ်ဆီသို့ ယေဘူယျပုံစံတစ်ခုကို ထုတ်ပေးနိုင်သည်။

Principal Component Regression လုပ်ဆောင်ရန် အဆင့်များ

လက်တွေ့တွင်၊ အဓိကအစိတ်အပိုင်းများ ဆုတ်ယုတ်ခြင်းကို လုပ်ဆောင်ရန် အောက်ပါအဆင့်များကို အသုံးပြုသည်-

1. ကြိုတင်ခန့်မှန်းသူများကို စံသတ်မှတ်ပါ။

ပထမဦးစွာ၊ ခန့်မှန်းသူ variable တစ်ခုစီတွင် ပျမ်းမျှတန်ဖိုး 0 နှင့် 1 ၏ စံသွေဖည်မှုရှိကြောင်း ဒေတာကို ပုံမှန်အားဖြင့် စံသတ်မှတ်ပါသည်။ ၎င်းသည် ခန့်မှန်းသူအား လွှမ်းမိုးမှုအလွန်အကျွံမရရှိစေရန် အထူးသဖြင့် ၎င်းကို မတူညီသောယူနစ်များဖြင့် တိုင်းတာပါက (c ဆိုလိုသည်မှာ ₁ ဆိုလျှင်၊ လက်မဖြင့် တိုင်းတာသည်။) X ₂ ကို ကိုက်၍ တိုင်းသည်။

2. အဓိကအစိတ်အပိုင်းများကို တွက်ချက်ပြီး အဓိကအစိတ်အပိုင်းများကို ကြိုတင်ခန့်မှန်းမှုများအဖြစ် အသုံးပြုကာ linear regression လုပ်ဆောင်ပါ။

ထို့နောက်၊ ကျွန်ုပ်တို့သည် ပင်မအစိတ်အပိုင်းများကို တွက်ချက်ပြီး ပထမ M အဓိကအစိတ်အပိုင်းများ Z ₁ , …, Z _{M ကို} ကြိုတင်ခန့်မှန်းချက်များအဖြစ် အသုံးပြု၍ linear regression model တစ်ခုနှင့်ကိုက်ညီရန် အနည်းဆုံးစတုရန်းပုံနည်းလမ်းကို အသုံးပြုပါသည်။

3. အဓိကအစိတ်အပိုင်းမည်မျှထားရှိရန် ဆုံးဖြတ်ပါ။

ထို့နောက်၊ ကျွန်ုပ်တို့သည် မော်ဒယ်တွင်ထားရှိရန် အကောင်းဆုံးသော အဓိကအစိတ်အပိုင်းများကို ရှာဖွေရန် k-fold cross-validation ကို အသုံးပြုပါသည်။ သိမ်းဆည်းရန် အဓိကအစိတ်အပိုင်းများ၏ “ အကောင်းဆုံး” အရေအတွက်သည် ယေဘုယျအားဖြင့် စမ်းသပ်မှု၏ အနိမ့်ဆုံးပျမ်းမျှစတုရန်းအမှားအယွင်း (MSE) ကိုထုတ်ပေးသည့် နံပါတ်ဖြစ်သည်။

Principal Component Regression ၏ အားသာချက်များနှင့် အားနည်းချက်များ

Principal component regression (PCR) သည် အောက်ပါ အားသာချက်များကို ပေးဆောင်သည် ။

ပဌမအဓိကအစိတ်အပိုင်းများသည် ကြိုတင်ခန့်မှန်းသူများ၏ ကွဲလွဲချက်အများစုကို ဖမ်းယူနိုင်သည့်အခါတွင် PCR သည် ကောင်းမွန်စွာလုပ်ဆောင်နိုင်သည် ။
PCR သည် တစ်ခုနှင့်တစ်ခု ဆက်စပ်မှုမရှိသော အဓိကအစိတ်အပိုင်းများကို ထုတ်လုပ်ပေးသောကြောင့် ကြိုတင်ခန့်မှန်းကိန်းရှင်များသည် အလွန်ဆက်စပ်နေသော်လည်း PCR သည် ကောင်းမွန်စွာလုပ်ဆောင်နိုင်သည်။
အဓိကအစိတ်အပိုင်းတစ်ခုစီသည် ခန့်မှန်းသူကိန်းရှင်များအားလုံးကို တစ်ပြေးညီပေါင်းစပ်အသုံးပြုထားသောကြောင့် PCR သည် သင့်အား မော်ဒယ်မှဖယ်ရှားရန် မည်သည့်ကြိုတင်ခန့်မှန်းကိန်းရှင်များကို ရွေးချယ်ရန် မလိုအပ်ပါ။
မျဉ်းကြောင်းအတိုင်း ဆုတ်ယုတ်မှု အများအပြားနှင့်မတူဘဲ စောင့်ကြည့်မှုများထက် ကြိုတင်ခန့်မှန်းနိုင်သော ကိန်းရှင်များရှိပါက PCR ကို အသုံးပြုနိုင်သည်။

သို့သော် PCR တွင် အားနည်းချက်တစ်ခုရှိသည်။

PCR သည် မည်သည့်အဓိကအစိတ်အပိုင်းများကို သိမ်းဆည်းရန် သို့မဟုတ် ဖယ်ရှားရန် ဆုံးဖြတ်သည့်အခါ တုံ့ပြန်မှုကိန်းရှင်ကို ထည့်သွင်းစဉ်းစားမည်မဟုတ်ပါ။ ယင်းအစား၊ ၎င်းသည် အဓိကအစိတ်အပိုင်းများမှဖမ်းယူထားသော ကြိုတင်ခန့်မှန်းကိန်းရှင်များအကြား ကွဲလွဲမှုပမာဏကိုသာ ထည့်သွင်းစဉ်းစားသည်။ အချို့သောကိစ္စများတွင် အကြီးဆုံးကွဲလွဲမှုများရှိသည့် အဓိကအစိတ်အပိုင်းများသည် တုံ့ပြန်မှုကိန်းရှင်ကို ကောင်းစွာခန့်မှန်းနိုင်မည်မဟုတ်ကြောင်း ဖြစ်နိုင်သည်။

လက်တွေ့တွင်၊ ကျွန်ုပ်တို့သည် မတူညီသော မော်ဒယ်များ (PCR၊ Ridge၊ Lasso၊ multiple linear regression စသည်) ကို အသုံးပြု၍ ဒေတာအသစ်တွင် အနိမ့်ဆုံး MSE စမ်းသပ်မှုကို ထုတ်ပေးသည့် မော်ဒယ်ကို ခွဲခြားသတ်မှတ်ရန် k-fold cross-validation ကို အသုံးပြုပါသည်။

မူရင်းဒေတာအစုတွင် multicollinearity ရှိနေသည့်ကိစ္စများတွင် (မကြာခဏဆိုသလို) PCR သည် သာမန်အနည်းဆုံးစတုရန်းအနိမ့်ဆုံးဆုတ်ယုတ်မှုထက် ပိုမိုကောင်းမွန်ပါသည်။ သို့သော်၊ မမြင်ရသောဒေတာအတွက် ဘယ်အရာသည် ယေဘုယျအားဖြင့် အကောင်းဆုံးဖြစ်သည်ကို သင်ခွဲခြားသိရှိနိုင်စေရန် မတူညီသော မော်ဒယ်များစွာကို အံဝင်ခွင်ကျဖြစ်စေရန် စိတ်ကူးကောင်းတစ်ခုဖြစ်သည်။

R & Python တွင် အဓိကအစိတ်အပိုင်း ဆုတ်ယုတ်မှု

အောက်ဖော်ပြပါ သင်ခန်းစာများသည် R နှင့် Python တွင် အဓိကအစိတ်အပိုင်းများ ဆုတ်ယုတ်ခြင်းကို မည်သို့လုပ်ဆောင်ရမည်ကို ပြသသည်-

R တွင် အဓိကအစိတ်အပိုင်း ဆုတ်ယုတ်မှု (အဆင့်ဆင့်)
Python ရှိ Principal Component Regression (အဆင့်ဆင့်)

စာရေးသူအကြောင်း

Benjamin Anderson

မင်္ဂလာပါ၊ ကျွန်ုပ်သည် အငြိမ်းစား စာရင်းအင်း ပါမောက္ခ ဘင်ဂျမင်ဖြစ်ပြီး သီးသန့် Statorials ဆရာအဖြစ် လှည့်ပတ်ပါသည်။ စာရင်းဇယားနယ်ပယ်တွင် ကျယ်ပြန့်သောအတွေ့အကြုံနှင့် ကျွမ်းကျင်မှုနှင့်အတူ၊ Statorials မှတစ်ဆင့် ကျောင်းသားများကို ခွန်အားဖြစ်စေရန်အတွက် ကျွန်ုပ်၏အသိပညာကို မျှဝေလိုပါသည်။ ပိုသိတယ်။

Principal Component Regression လုပ်ဆောင်ရန် အဆင့်များ

Principal Component Regression ၏ အားသာချက်များနှင့် အားနည်းချက်များ

R & Python တွင် အဓိကအစိတ်အပိုင်း ဆုတ်ယုတ်မှု

စာရေးသူအကြောင်း

Benjamin Anderson

မှတ်ချက်တစ်ခုထည့်ပါ။