Principal component regression အကြောင်း နိဒါန်း
မော်ဒယ်များ ဖန်တီးရာတွင် သင်ကြုံတွေ့ရမည့် အဖြစ်များဆုံး ပြဿနာတစ်ခုမှာ multicollinearity ဖြစ်သည်။ ဒေတာအတွဲတစ်ခုရှိ ကြိုတင်ခန့်မှန်းကိန်းရှင် နှစ်ခု သို့မဟုတ် ထို့ထက်ပိုသော ကိန်းရှင်များသည် အလွန်ဆက်စပ်နေသောအခါ ၎င်းသည် ဖြစ်ပေါ်သည်။
ထိုသို့ဖြစ်လာသောအခါ၊ ပေးထားသောပုံစံသည် လေ့ကျင့်ရေးဒေတာအစုံကို ကောင်းစွာအံဝင်ခွင်ကျဖြစ်စေနိုင်သော်လည်း ၎င်းသည် လေ့ကျင့်ရေးအစုနှင့် ကိုက်ညီသောကြောင့် ၎င်းသည် မမြင်ဖူးသောဒေတာအစုံအသစ်တွင် ညံ့ ဖျင်း သွားဖွယ်ရှိသည်။
အလွန်အကျွံမဖြစ်အောင် ရှောင်ရန်တစ်နည်းမှာ အမျိုးအစား ခွဲရွေးချယ်ရေး နည်းလမ်းအချို့ကို အသုံးပြုရန်ဖြစ်သည်-
ဤနည်းလမ်းများသည် မသက်ဆိုင်သော ကြိုတင်ခန့်မှန်းသူများကို မော်ဒယ်မှ ဖယ်ရှားရန် ကြိုးပမ်းသောကြောင့် တုံ့ပြန်မှုကိန်းရှင်၏ ကွဲပြားမှုကို ခန့်မှန်းနိုင်သည့် အရေးကြီးဆုံးသော ကြိုတင်ခန့်မှန်းသူများကိုသာ နောက်ဆုံးမော်ဒယ်တွင် ကျန်ခဲ့သည်။
အလွန်အကျွံဝတ်ခြင်းကို ရှောင်ရှားရန် အခြားနည်းလမ်းမှာ ပုံမှန်ပြုလုပ်ခြင်း နည်းလမ်းအချို့ကို အသုံးပြုခြင်းဖြစ်သည်-။
ဤနည်းလမ်းများသည် ကွဲလွဲမှုကို လျှော့ချရန် မော်ဒယ်တစ်ခု၏ ကိန်းဂဏန်းများကို ကန့်သတ်ရန် သို့မဟုတ် ပုံမှန်ပြုလုပ်ရန် ကြိုးပမ်းပြီး ဒေတာအသစ်များကို ကောင်းစွာ ယေဘုယျဖော်ပြနိုင်သော မော်ဒယ်များကို ထုတ်လုပ်ပေးပါသည်။
Multicollinearity နှင့် ဆက်ဆံရာတွင် လုံးဝကွဲပြားသောချဉ်းကပ်မှုကို Dimensional Reduction ဟုခေါ်သည်။
အတိုင်းအတာ လျှော့ချခြင်း၏ ဘုံနည်းလမ်းကို အဓိက အစိတ်အပိုင်း ဆုတ်ယုတ်ခြင်း ဟု လူသိများပြီး အောက်ပါအတိုင်း လုပ်ဆောင်သည်။
1. ပေးထားသော ဒေတာအတွဲတွင် p ခန့်မှန်းပေးသူများ ပါဝင်သည်ဟု ယူဆပါ –
2. Z 1 , … , Z M ကို မူရင်း p ခန့်မှန်းသူများ၏ M linear ပေါင်းစပ်မှုများအဖြစ် တွက်ချက်ပါ။
- Z m = ΣΦ jm _
- Z 1 သည် ကွဲလွဲမှုကို တတ်နိုင်သမျှ ဖမ်းယူနိုင်သော ခန့်မှန်းသူများ၏ မျဉ်းဖြောင့်ပေါင်းစပ်မှုဖြစ်သည်။
- Z 2 သည် အစီအစဥ်အတိုင်း (ဆိုလိုသည်မှာ Z 1 မှ ဆက်စပ်မှုမရှိသော) ဖြစ်နေစဉ် ကွဲလွဲမှုကို အများဆုံးဖမ်းယူမည့် ခန့်မှန်းသူများ၏နောက်ထပ်တစ်ပြေးညီပေါင်းစပ်မှုဖြစ်သည်။
- ထို့နောက် Z 3 သည် Z 2 သို့ အစီအစဥ်အတိုင်းဖြစ်နေစဉ် ကွဲလွဲမှုအရှိဆုံးကို ဖမ်းယူမည့် ခန့်မှန်းတွက်ချက်မှုများ၏နောက်ထပ်တစ်ပြေးညီပေါင်းစပ်မှုဖြစ်သည်။
- နောက် … ပြီးတော့။
3. ခန့်မှန်းချက်များအဖြစ် ပထမ M အဓိကအစိတ်အပိုင်းများ Z 1 , …, Z M ကို အသုံးပြု၍ linear regression model နှင့်ကိုက်ညီရန် အနည်းဆုံးစတုရန်းနည်းကိုသုံးပါ။
အတိုင်းအတာလျှော့ချခြင်း ဟူသော ဝေါဟာရသည် M<p နေရာတွင် p+1 coefficient များအစား M+1 coefficients များကိုသာ ခန့်မှန်းရမည်ဟူသောအချက်မှ ဆင်းသက်လာခြင်းဖြစ်သည်။
တစ်နည်းဆိုရသော် ပြဿနာ၏ အတိုင်းအတာကို p+1 မှ M+1 သို့ လျှော့ချထားသည်။
ဒေတာအတွဲတစ်ခုတွင် multicollinearity ရှိနေသည့်ကိစ္စများတွင်၊ အဓိကအစိတ်အပိုင်းဆုတ်ယုတ်မှုသည် သမားရိုးကျ multiple linear regression ထက် သာလွန်ကောင်းမွန်သော ဒေတာအသစ်ဆီသို့ ယေဘူယျပုံစံတစ်ခုကို ထုတ်ပေးနိုင်သည်။
Principal Component Regression လုပ်ဆောင်ရန် အဆင့်များ
လက်တွေ့တွင်၊ အဓိကအစိတ်အပိုင်းများ ဆုတ်ယုတ်ခြင်းကို လုပ်ဆောင်ရန် အောက်ပါအဆင့်များကို အသုံးပြုသည်-
1. ကြိုတင်ခန့်မှန်းသူများကို စံသတ်မှတ်ပါ။
ပထမဦးစွာ၊ ခန့်မှန်းသူ variable တစ်ခုစီတွင် ပျမ်းမျှတန်ဖိုး 0 နှင့် 1 ၏ စံသွေဖည်မှုရှိကြောင်း ဒေတာကို ပုံမှန်အားဖြင့် စံသတ်မှတ်ပါသည်။ ၎င်းသည် ခန့်မှန်းသူအား လွှမ်းမိုးမှုအလွန်အကျွံမရရှိစေရန် အထူးသဖြင့် ၎င်းကို မတူညီသောယူနစ်များဖြင့် တိုင်းတာပါက (c ဆိုလိုသည်မှာ 1 ဆိုလျှင်၊ လက်မဖြင့် တိုင်းတာသည်။) X 2 ကို ကိုက်၍ တိုင်းသည်။
2. အဓိကအစိတ်အပိုင်းများကို တွက်ချက်ပြီး အဓိကအစိတ်အပိုင်းများကို ကြိုတင်ခန့်မှန်းမှုများအဖြစ် အသုံးပြုကာ linear regression လုပ်ဆောင်ပါ။
ထို့နောက်၊ ကျွန်ုပ်တို့သည် ပင်မအစိတ်အပိုင်းများကို တွက်ချက်ပြီး ပထမ M အဓိကအစိတ်အပိုင်းများ Z 1 , …, Z M ကို ကြိုတင်ခန့်မှန်းချက်များအဖြစ် အသုံးပြု၍ linear regression model တစ်ခုနှင့်ကိုက်ညီရန် အနည်းဆုံးစတုရန်းပုံနည်းလမ်းကို အသုံးပြုပါသည်။
3. အဓိကအစိတ်အပိုင်းမည်မျှထားရှိရန် ဆုံးဖြတ်ပါ။
ထို့နောက်၊ ကျွန်ုပ်တို့သည် မော်ဒယ်တွင်ထားရှိရန် အကောင်းဆုံးသော အဓိကအစိတ်အပိုင်းများကို ရှာဖွေရန် k-fold cross-validation ကို အသုံးပြုပါသည်။ သိမ်းဆည်းရန် အဓိကအစိတ်အပိုင်းများ၏ “ အကောင်းဆုံး” အရေအတွက်သည် ယေဘုယျအားဖြင့် စမ်းသပ်မှု၏ အနိမ့်ဆုံးပျမ်းမျှစတုရန်းအမှားအယွင်း (MSE) ကိုထုတ်ပေးသည့် နံပါတ်ဖြစ်သည်။
Principal Component Regression ၏ အားသာချက်များနှင့် အားနည်းချက်များ
Principal component regression (PCR) သည် အောက်ပါ အားသာချက်များကို ပေးဆောင်သည် ။
- ပဌမအဓိကအစိတ်အပိုင်းများသည် ကြိုတင်ခန့်မှန်းသူများ၏ ကွဲလွဲချက်အများစုကို ဖမ်းယူနိုင်သည့်အခါတွင် PCR သည် ကောင်းမွန်စွာလုပ်ဆောင်နိုင်သည် ။
- PCR သည် တစ်ခုနှင့်တစ်ခု ဆက်စပ်မှုမရှိသော အဓိကအစိတ်အပိုင်းများကို ထုတ်လုပ်ပေးသောကြောင့် ကြိုတင်ခန့်မှန်းကိန်းရှင်များသည် အလွန်ဆက်စပ်နေသော်လည်း PCR သည် ကောင်းမွန်စွာလုပ်ဆောင်နိုင်သည်။
- အဓိကအစိတ်အပိုင်းတစ်ခုစီသည် ခန့်မှန်းသူကိန်းရှင်များအားလုံးကို တစ်ပြေးညီပေါင်းစပ်အသုံးပြုထားသောကြောင့် PCR သည် သင့်အား မော်ဒယ်မှဖယ်ရှားရန် မည်သည့်ကြိုတင်ခန့်မှန်းကိန်းရှင်များကို ရွေးချယ်ရန် မလိုအပ်ပါ။
- မျဉ်းကြောင်းအတိုင်း ဆုတ်ယုတ်မှု အများအပြားနှင့်မတူဘဲ စောင့်ကြည့်မှုများထက် ကြိုတင်ခန့်မှန်းနိုင်သော ကိန်းရှင်များရှိပါက PCR ကို အသုံးပြုနိုင်သည်။
သို့သော် PCR တွင် အားနည်းချက်တစ်ခုရှိသည်။
- PCR သည် မည်သည့်အဓိကအစိတ်အပိုင်းများကို သိမ်းဆည်းရန် သို့မဟုတ် ဖယ်ရှားရန် ဆုံးဖြတ်သည့်အခါ တုံ့ပြန်မှုကိန်းရှင်ကို ထည့်သွင်းစဉ်းစားမည်မဟုတ်ပါ။ ယင်းအစား၊ ၎င်းသည် အဓိကအစိတ်အပိုင်းများမှဖမ်းယူထားသော ကြိုတင်ခန့်မှန်းကိန်းရှင်များအကြား ကွဲလွဲမှုပမာဏကိုသာ ထည့်သွင်းစဉ်းစားသည်။ အချို့သောကိစ္စများတွင် အကြီးဆုံးကွဲလွဲမှုများရှိသည့် အဓိကအစိတ်အပိုင်းများသည် တုံ့ပြန်မှုကိန်းရှင်ကို ကောင်းစွာခန့်မှန်းနိုင်မည်မဟုတ်ကြောင်း ဖြစ်နိုင်သည်။
လက်တွေ့တွင်၊ ကျွန်ုပ်တို့သည် မတူညီသော မော်ဒယ်များ (PCR၊ Ridge၊ Lasso၊ multiple linear regression စသည်) ကို အသုံးပြု၍ ဒေတာအသစ်တွင် အနိမ့်ဆုံး MSE စမ်းသပ်မှုကို ထုတ်ပေးသည့် မော်ဒယ်ကို ခွဲခြားသတ်မှတ်ရန် k-fold cross-validation ကို အသုံးပြုပါသည်။
မူရင်းဒေတာအစုတွင် multicollinearity ရှိနေသည့်ကိစ္စများတွင် (မကြာခဏဆိုသလို) PCR သည် သာမန်အနည်းဆုံးစတုရန်းအနိမ့်ဆုံးဆုတ်ယုတ်မှုထက် ပိုမိုကောင်းမွန်ပါသည်။ သို့သော်၊ မမြင်ရသောဒေတာအတွက် ဘယ်အရာသည် ယေဘုယျအားဖြင့် အကောင်းဆုံးဖြစ်သည်ကို သင်ခွဲခြားသိရှိနိုင်စေရန် မတူညီသော မော်ဒယ်များစွာကို အံဝင်ခွင်ကျဖြစ်စေရန် စိတ်ကူးကောင်းတစ်ခုဖြစ်သည်။
R & Python တွင် အဓိကအစိတ်အပိုင်း ဆုတ်ယုတ်မှု
အောက်ဖော်ပြပါ သင်ခန်းစာများသည် R နှင့် Python တွင် အဓိကအစိတ်အပိုင်းများ ဆုတ်ယုတ်ခြင်းကို မည်သို့လုပ်ဆောင်ရမည်ကို ပြသသည်-
R တွင် အဓိကအစိတ်အပိုင်း ဆုတ်ယုတ်မှု (အဆင့်ဆင့်)
Python ရှိ Principal Component Regression (အဆင့်ဆင့်)