Multivariate adaptive regression splines ၏ နိဒါန်း


ကြိုတင်ခန့်မှန်းကိန်းရှင်အစုတစ်ခုနှင့် တုံ့ပြန်မှုကိန်းရှင် ကြားရှိ ဆက်ဆံရေးသည် တစ်ပြေးညီဖြစ်နေသောအခါ၊ ကျွန်ုပ်တို့သည် ပေးထားသော ခန့်မှန်းကိန်းရှင်ကိန်းရှင်နှင့် တုံ့ပြန်မှုကိန်းရှင်ကြားမှ ဆက်နွယ်မှုပုံစံအဖြစ် ယူဆသည့် linear regression ကို မကြာခဏ အသုံးပြုနိုင်သည်။

Y = β 0 + β 1 X + ε

သို့သော် လက်တွေ့တွင်၊ ကိန်းရှင်များကြားက ဆက်နွယ်မှုသည် အမှန်တကယ်တွင် လိုင်းနားမဟုတ်သော ဖြစ်နိုင်ပြီး linear regression ကိုအသုံးပြုရန် ကြိုးစားခြင်းသည် ညံ့ဖျင်းသောပုံစံကို ဖြစ်ပေါ်စေနိုင်သည်။

ကြိုတင်ခန့်မှန်းသူနှင့် တုံ့ပြန်မှု variable အကြား လိုင်းမဟုတ်သော ဆက်နွယ်မှုကို တွက်ချက်ရန် နည်းလမ်းတစ်ခုမှာ ပုံစံယူထားသည့် polynomial regression ကို အသုံးပြုခြင်းဖြစ်သည်-

Y = β 0 + β 1 X + β 2 X 2 + … + β h

ဤညီမျှခြင်းတွင် h ကို polynomial ၏ “ ဒီဂရီ” ဟုခေါ်သည်။ h ၏တန်ဖိုးကို တိုးလာသည်နှင့်အမျှ၊ မော်ဒယ်သည် ပိုမိုပျော့ပြောင်းလာပြီး လိုင်းမဟုတ်သောဒေတာနှင့် လိုက်လျောညီထွေဖြစ်အောင် လုပ်ဆောင်နိုင်သည်။

သို့သော်၊ polynomial regression တွင် အားနည်းချက်အချို့ရှိသည်။

1. Polynomial regression သည် ဒီဂရီ , h , ကြီးလွန်းပါက ဒေတာအစုံကို အလွယ်တကူ ကျော်လွန် နိုင်သည် ။ လက်တွေ့တွင်၊ h သည် 3 သို့မဟုတ် 4 ထက် ကြီးသည်ဆိုခြင်းမှာ ၎င်းသည် လေ့ကျင့်ခန်းတစ်ခု၏ ဆူညံသံနှင့်သာ သက်ဆိုင်ပြီး မမြင်ရသော data ကို ကောင်းစွာ ယေဘုယျမဖော်ပြနိုင်သောကြောင့် ဖြစ်သည်။

2. Polynomial regression သည် အမြဲတမ်းတိကျမှုမရှိသော data set တစ်ခုလုံးတွင် ဂလိုဘယ်လုပ်ဆောင်ချက်ကို သက်ရောက်စေသည်။

polynomial regression ၏အခြားရွေးချယ်စရာမှာ multivariate adaptive regression splines ဖြစ်သည်။

အခြေခံအယူအဆ

Multivariate adaptive regression splines များသည် အောက်ပါအတိုင်း လုပ်ဆောင်ပါသည်။

1. ဒေတာအစုံကို k အပိုင်းများအဖြစ် ပိုင်းပါ။

ပထမဦးစွာ၊ ကျွန်ုပ်တို့သည် dataset တစ်ခုကို k မတူညီသောဒြပ်စင်များအဖြစ် ပိုင်းခြားပါသည်။ ဒေတာအတွဲကို ခွဲဝေပေးသည့် အမှတ်များကို nodes ဟုခေါ်သည်။

ခန့်မှန်းသူတိုင်းအတွက် ဖြစ်နိုင်ချေရှိသော node တစ်ခုအဖြစ် အမှတ်တစ်ခုစီကို အကဲဖြတ်ပြီး ကိုယ်စားလှယ်လောင်း၏အင်္ဂါရပ်များကို အသုံးပြု၍ linear regression model ကိုဖန်တီးခြင်းဖြင့် node များကိုခွဲခြားသတ်မှတ်ပါသည်။ မော်ဒယ်ရှိ အမှားအယွင်းများကို လျှော့ချနိုင်သည့် အချက်မှာ node ဖြစ်သည်။

ပထမ node ကိုကျွန်ုပ်တို့ဖော်ထုတ်ပြီးသည်နှင့်နောက်ထပ် node များကိုရှာဖွေရန် လုပ်ငန်းစဉ်ကိုထပ်လုပ်ပါသည်။ စတင်ရန် ကျိုးကြောင်းဆီလျော်သည်ဟု သင်ထင်သည်အတိုင်း ဆုံမှတ်များစွာကို သင်ရှာဖွေနိုင်သည်။

2. ပတ္တာလုပ်ဆောင်ချက်ကို ဖန်တီးရန်အတွက် အစိတ်အပိုင်းတစ်ခုစီတွင် ဆုတ်ယုတ်မှုလုပ်ဆောင်ချက်ကို ဖြည့်သွင်းပါ။

ကျွန်ုပ်တို့သည် node များကိုရွေးချယ်ပြီး dataset ရှိဒြပ်စင်တစ်ခုစီအတွက် regression model တစ်ခုနှင့်ကိုက်ညီသည်နှင့်၊ a သည် value(s) threshold ဖြစ်သည့် h(xa) ဖြင့်ဖော်ပြသော hinge function ဟုခေါ်သည့်အရာကို အဆုံးသတ်ပါသည်။

ဥပမာအားဖြင့်၊ one-node model အတွက် hinge function သည်-

  • y = β 0 + β 1 (4.3 – x) ဆိုလျှင် x < 4.3
  • y = β 0 + β 1 (x – 4.3) ဆိုလျှင် x > 4.3

ဤကိစ္စတွင်၊ တံခါးခုံတန်ဖိုးအဖြစ် 4.3 ကို ရွေးချယ်ခြင်းသည် ဖြစ်နိုင်သည့်အတိုင်းအတာတန်ဖိုးများကြားတွင် အမြင့်ဆုံးအမှားအယွင်းကို လျှော့ချနိုင်သည်ဟု ဆုံးဖြတ်ထားသည်။ ထို့နောက် ကျွန်ုပ်တို့သည် 4.3 အထက်တန်ဖိုးများနှင့် 4.3 အထက်တန်ဖိုးများဆီသို့ မတူညီသော ဆုတ်ယုတ်မှုပုံစံကို အံဝင်ခွင်ကျဖြစ်စေပါသည်။

node နှစ်ခုပါသော hinge လုပ်ဆောင်ချက်သည် အောက်ပါအတိုင်း ဖြစ်နိုင်သည်-

  • y = β 0 + β 1 (4.3 – x) ဆိုလျှင် x < 4.3
  • y = β 0 + β 1 (x – 4.3) ဆိုလျှင် x > 4.3 & x < 6.7
  • y = β 0 + β 1 (6.7 – x) ဆိုလျှင် x > 6.7

ဤကိစ္စတွင်၊ တံခါးခုံတန်ဖိုးများအဖြစ် 4.3 နှင့် 6.7 ကို ရွေးချယ်ခြင်းသည် ဖြစ်နိုင်သည့်အတိုင်းအတာတန်ဖိုးများကြားတွင် အမြင့်ဆုံးအမှားအယွင်းကို လျှော့ချနိုင်သည်ဟု ဆုံးဖြတ်ခဲ့သည်။ ထို့နောက် ကျွန်ုပ်တို့သည် ဆုတ်ယုတ်မှုပုံစံတစ်ခုအား 4.3 အောက်တန်ဖိုးများ၊ အခြားဆုတ်ယုတ်မှုပုံစံသို့ 4.3 နှင့် 6.7 အကြားတန်ဖိုးများနှင့် အခြားဆုတ်ယုတ်မှုပုံစံမှ 4.3 အထက်တန်ဖိုးများသို့ အံဝင်ခွင်ကျဖြစ်စေပါသည်။

3. k-fold အပြန်အလှန်အတည်ပြုချက်ကိုအခြေခံ၍ k ကို ရွေးချယ်ပါ။

နောက်ဆုံးအနေနဲ့၊ မော်ဒယ်တစ်ခုစီအတွက် မတူညီတဲ့ node အရေအတွက်ကို အသုံးပြုပြီး မတူညီတဲ့ မော်ဒယ်အများအပြားကို တပ်ဆင်ပြီးတာနဲ့၊ အနိမ့်ဆုံး test mean squared error (MSE) ကိုထုတ်ပေးတဲ့ မော်ဒယ်ကို သိရှိနိုင်ဖို့ k-fold cross-validation ကို လုပ်ဆောင်နိုင်ပါတယ်။

အနိမ့်ဆုံး MSE စမ်းသပ်မှုရှိသော မော်ဒယ်ကို ဒေတာအသစ်အတွက် အကောင်းဆုံး ယေဘုယျဖော်ပြသည့် မော်ဒယ်အဖြစ် ရွေးချယ်ထားသည်။

အားသာချက် အားနည်းချက်

Multivariate adaptive regression splines များတွင် အောက်ပါ အားသာချက်များနှင့် အားနည်းချက်များရှိသည်။

အားသာချက်များ

အားနည်းချက်များ

  • ကျပန်းသစ်တောများနှင့် gradient boosting machines ကဲ့သို့သော လိုင်းမဟုတ်သော နည်းလမ်းများကဲ့သို့ လုပ်ဆောင်လေ့မရှိပါ။

R & Python တွင် MARS မော်ဒယ်များနှင့် အံကိုက်လုပ်နည်း

အောက်ဖော်ပြပါ သင်ခန်းစာများသည် R နှင့် Python တွင် multivariate adaptive regression splines (MARS) ကို အံဝင်ခွင်ကျလုပ်နည်း အဆင့်ဆင့် ဥပမာများကို ဖော်ပြပေးသည်-

R in Multivariate Adaptive Regression Splines
Python ရှိ Multivariate Adaptive Regression Splines

မှတ်ချက်တစ်ခုထည့်ပါ။

သင့် email လိပ်စာကို ဖော်ပြမည် မဟုတ်ပါ။ လိုအပ်သော ကွက်လပ်များကို * ဖြင့်မှတ်သားထားသည်