တိုက်ရိုက်ရွေးချယ်မှုဆိုတာဘာလဲ။ (အဓိပ္ပါယ် & #038; ဥပမာ)


ကိန်းဂဏန်းစာရင်းဇယားများတွင်၊ အဆင့်လိုက်ရွေးချယ်ခြင်း သည် ကိန်းဂဏန်းစာရင်းဝင်ရန် ခိုင်လုံသောအကြောင်းပြချက်မရှိတော့မချင်း ကြိုတင်ခန့်မှန်းသူအား ကိန်းရှင်အစုတစ်ခုမှ ဆုတ်ယုတ်မှုပုံစံ တစ်ခုတည်ဆောက်ရန် ကျွန်ုပ်တို့အသုံးပြုနိုင်သည့် လုပ်ငန်းစဉ်တစ်ခုဖြစ်သည်။ သို့မဟုတ် နောက်ထပ်ဖျက်ပါ။

အဆင့်ဆင့်ရွေးချယ်ခြင်း၏ ပန်းတိုင်မှာ တုံ့ပြန်မှုကိန်းရှင် နှင့် ကိန်းဂဏန်းအရ သိသာထင်ရှားစွာဆက်စပ်နေသည့် ကြိုတင်ခန့်မှန်းကိန်းရှင်အားလုံးပါဝင်သည့် ဆုတ်ယုတ်မှုပုံစံတစ်ခုကို ဖန်တီးရန်ဖြစ်သည်။

အသုံးအများဆုံး အဆင့်ဆင့်ရွေးချယ်ရေးနည်းလမ်းများထဲမှ တစ်ခုကို တိုက်ရိုက်ရွေးချယ်ခြင်း ဟု လူသိများပြီး အောက်ပါအတိုင်း လုပ်ဆောင်နိုင်သည်-

အဆင့် 1- ကြိုတင်ခန့်မှန်းနိုင်သော ကိန်းရှင်များမပါဘဲ ကြားဖြတ်-သီးသန့် ဆုတ်ယုတ်မှုပုံစံကို ဖြည့်ပါ။ မော်ဒယ်အတွက် AIC * တန်ဖိုးကို တွက်ချက်ပါ။

အဆင့် 2- ဖြစ်နိုင်သော တစ်ခုတည်းသော ကြိုတင်တွက်ဆမှု ဆုတ်ယုတ်မှု မော်ဒယ်အားလုံးကို ကိုက်ညီပါ။ အနိမ့်ဆုံး AIC ကို ထုတ်လုပ်သည့် မော်ဒယ်ကို ခွဲခြားသတ်မှတ်ပြီး AIC တွင် ကိန်းဂဏန်းအရ သိသာထင်ရှားစွာ လျော့ကျသွားသည့် ကြားဖြတ်-တစ်ခုတည်းသော မော်ဒယ်နှင့် နှိုင်းယှဉ်ပါ။

အဆင့် 3- ဆုတ်ယုတ်မှုပုံစံအားလုံးကို ဖြစ်နိုင်ချေရှိသော ခန့်မှန်းသူနှစ်ဦးနှင့် အံကိုက်လုပ်ပါ။ အနိမ့်ဆုံး AIC ကို ထုတ်လုပ်သည့် မော်ဒယ်ကို ခွဲခြားသတ်မှတ်ပြီး AIC တွင် ကိန်းဂဏန်းအရ သိသာထင်ရှားစွာ လျော့ကျသွားသည့် တစ်ခုတည်းသော ကြိုတင်ခန့်မှန်း မော်ဒယ်နှင့် နှိုင်းယှဉ်ပါ။

AIC တွင် စာရင်းအင်းဆိုင်ရာ သိသာထင်ရှားသော လျှော့ချမှုကို မဖြစ်ပေါ်စေနိုင်တော့ဘဲ ဆုတ်ယုတ်မှုပုံစံတစ်ခုနှင့် အံဝင်ခွင်ကျမဖြစ်မချင်း လုပ်ငန်းစဉ်ကို ထပ်လုပ်ပါ။

* ဖြတ်ကျော်အတည်ပြုချက်ခန့်မှန်းချက်အမှား၊ Cp၊ BIC၊ AIC သို့မဟုတ် ချိန်ညှိထားသော R2 အပါအဝင် ဆုတ်ယုတ်မှုပုံစံ၏ အံဝင်ခွင်ကျဖြစ်မှုကို တွက်ချက်ရန် သင်အသုံးပြုနိုင်သည့် မက်ထရစ်များစွာရှိပါသည်။ အောက်ပါဥပမာတွင်၊ ကျွန်ုပ်တို့သည် AIC ကိုအသုံးပြုရန်ရွေးချယ်သည်။

အောက်ပါဥပမာသည် R တွင် တိုက်ရိုက်ရွေးချယ်မှုကို မည်သို့လုပ်ဆောင်ရမည်ကို ပြသထားသည်။

ဥပမာ- R တွင် တိုက်ရိုက်ရွေးချယ်မှု

ဤဥပမာအတွက်၊ R တွင်တည်ဆောက်ထားသော mtcars dataset ကို အသုံးပြုပါမည်။

 #view first six rows of mtcars
head(mtcars)

                   mpg cyl disp hp drat wt qsec vs am gear carb
Mazda RX4 21.0 6 160 110 3.90 2.620 16.46 0 1 4 4
Mazda RX4 Wag 21.0 6 160 110 3.90 2.875 17.02 0 1 4 4
Datsun 710 22.8 4 108 93 3.85 2.320 18.61 1 1 4 1
Hornet 4 Drive 21.4 6 258 110 3.08 3.215 19.44 1 0 3 1
Hornet Sportabout 18.7 8 360 175 3.15 3.440 17.02 0 0 3 2
Valiant 18.1 6 225 105 2.76 3,460 20.22 1 0 3 1

တုံ့ပြန်မှုကိန်းရှင်နှင့် ဖြစ်နိုင်ချေရှိသော ခန့်မှန်းကိန်းရှင်များအဖြစ် ဒေတာသတ်မှတ်ထားသည့် အခြားကိန်းရှင် 10 ခုကို တုံ့ပြန်မှုကိန်းရှင်အဖြစ် mpg (တစ်ဂါလံလျှင် မိုင်) ကို အသုံးပြု၍ များစွာသောမျဉ်းကြောင်းဆုတ်ယုတ်မှုပုံစံကို ဖြည့်ဆည်းပေးပါမည်။

အောက်ပါကုဒ်သည် ရွေးချယ်မှုတစ်ခုကို အဆင့်ဆင့်လုပ်ဆောင်ပုံကို ပြသသည်-

 #define intercept-only model
intercept_only <- lm(mpg ~ 1, data=mtcars)

#define model with all predictors
all <- lm(mpg ~ ., data=mtcars)

#perform forward stepwise regression
forward <- step(intercept_only, direction=' forward ', scope= formula (all), trace= 0 )

#view results of forward stepwise regression
forward$anova

   Step Df Deviance Resid. Df Resid. Dev AIC
1 NA NA 31 1126.0472 115.94345
2 + wt -1 847.72525 30 278.3219 73.21736
3 + cyl -1 87.14997 29 191.1720 63.19800
4 + hp -1 14.55145 28 176.6205 62.66456

#view final model
forward$coefficients

(Intercept) wt cyl hp 
 38.7517874 -3.1669731 -0.9416168 -0.0180381 

ဤသည်မှာ ရလဒ်များကို မည်သို့အဓိပ္ပာယ်ဖွင့်ဆိုနိုင်သည်-

ပထမဦးစွာ၊ ကျွန်ုပ်တို့သည် ကြားဖြတ်တစ်ခုတည်းသော မော်ဒယ်နှင့် ကိုက်ညီပါသည်။ ဤမော်ဒယ်တွင် AIC 115.94345 ရှိသည်။

ထို့နောက် ကျွန်ုပ်တို့သည် ဖြစ်နိုင်ချေရှိသော မော်ဒယ်များအားလုံးကို ကြိုတင်ခန့်မှန်းသူအဖြစ် တပ်ဆင်ပေးသည်။ အနိမ့်ဆုံး AIC ကို ထုတ်လုပ်သည့် မော်ဒယ်သည် wt ခန့်မှန်းသူကို အသုံးပြုသည့် ကြားဖြတ်-တစ်ခုတည်းသော မော်ဒယ်နှင့် နှိုင်းယှဉ်ပါက AIC တွင် ကိန်းဂဏန်း သိသိသာသာ လျော့ကျမှု ရှိသည်။ ဤမော်ဒယ်တွင် AIC 73.21736 ရှိသည်။

နောက်တစ်ခု၊ ကျွန်ုပ်တို့သည် ကြိုတင်တွက်ဆမှုနှစ်ခုဖြင့် ဖြစ်နိုင်သည့် မော်ဒယ်အားလုံးကို ဖြည့်ဆည်းပေးသည်။ အနိမ့်ဆုံး AIC ကို ထုတ်လုပ်သည့် မော်ဒယ်နှင့် AIC တွင် ကိန်းဂဏန်း သိသိသာသာ လျော့ကျမှု ရှိသည် ၊ single-predictor model နှင့် နှိုင်းယှဉ်ပါက cyl predictor ကို ထည့်သွင်းထားသည်။ ဤမော်ဒယ်တွင် AIC 63.19800 ရှိသည်။

ထို့နောက်၊ ကျွန်ုပ်တို့သည် ဖြစ်နိုင်ချေရှိသော မော်ဒယ်အားလုံးကို ကြိုတင်ခန့်မှန်းသူ သုံးဦးထံ ဖြည့်သွင်းသည်။ အနိမ့်ဆုံး AIC ကို ထုတ်လုပ်သည့် မော်ဒယ်နှင့် AIC တွင် ကိန်းဂဏန်း သိသိသာသာ လျော့ကျမှု ရှိသည် ၊ ဤမော်ဒယ်တွင် AIC သည် 62.66456 ရှိသည်။

ထို့နောက်၊ ကျွန်ုပ်တို့သည် ဖြစ်နိုင်ချေရှိသော မော်ဒယ်အားလုံးကို ကြိုတင်ခန့်မှန်းသူ လေးဦးအတွက် ဖြည့်ဆည်းပေးသည်။ ဤမော်ဒယ်များထဲမှ တစ်ခုမှ AIC တွင် သိသာထင်ရှားစွာ လျော့ကျသွားခြင်း မရှိသောကြောင့် လုပ်ငန်းစဉ်ကို ရပ်တန့်လိုက်ပါသည်။

ထို့ကြောင့် နောက်ဆုံးပုံစံသည်-

mpg = 38.75 – 3.17*weight – 0.94*cyl – 0.02*hyp

မော်ဒယ်သို့ ကြိုတင်ခန့်မှန်းနိုင်သော ကိန်းရှင်များကို ထပ်ထည့်ရန် ကြိုးစားခြင်းသည် AIC တွင် ကိန်းဂဏန်းအရ သိသာထင်ရှားသော လျော့ကျမှုကို မဖြစ်ပေါ်စေကြောင်း တွေ့ရှိရပါသည်။

ထို့ကြောင့်၊ အကောင်းဆုံး မော်ဒယ်သည် wt၊ cyl နှင့် hp ဟူသော ခန့်မှန်းကိန်း သုံးခုပါသည့် တစ်ခုဖြစ်ကြောင်း ကျွန်ုပ်တို့ ကောက်ချက်ချပါသည်။

AIC အသုံးပြုခြင်းဆိုင်ရာ မှတ်ချက်

ယခင်ဥပမာတွင်၊ ကျွန်ုပ်တို့သည် ဆုတ်ယုတ်မှုပုံစံအမျိုးမျိုး၏ အံဝင်ခွင်ကျအကဲဖြတ်ရန် AIC ကို မက်ထရစ်တစ်ခုအဖြစ် အသုံးပြုရန် ရွေးချယ်ခဲ့သည်။

AIC သည် Akaike Information Criterion ကို ကိုယ်စားပြုပြီး အောက်ပါအတိုင်း တွက်ချက်ပါသည်။

AIC = 2K – 2 ln (L)

ရွှေ-

  • K- မော်ဒယ် ကန့်သတ်ချက်များ အရေအတွက်။
  • ln (L) : မော်ဒယ်၏ မှတ်တမ်းဖြစ်နိုင်ခြေ။ ၎င်းသည် ဒေတာအပေါ်အခြေခံ၍ မော်ဒယ်ဖြစ်နိုင်ချေ မည်မျှရှိသည်ကို ပြောပြသည်။

သို့သော်၊ ဖြတ်ကျော်စစ်ဆေးခြင်းဆိုင်ရာ ခန့်မှန်းချက်အမှား၊ Cp၊ BIC၊ AIC သို့မဟုတ် ချိန်ညှိထားသော R2 အပါအဝင် ဆုတ်ယုတ်မှုပုံစံများ၏ အံဝင်ခွင်ကျအကဲဖြတ်ရန် သင်အသုံးပြုရန် ရွေးချယ်နိုင်သည့် အခြားမက်ထရစ်များရှိပါသည်။

ကံကောင်းထောက်မစွာ၊ စာရင်းအင်းဆော့ဖ်ဝဲအများစုသည် တိုက်ရိုက်ရွေးချယ်ရာတွင် သင်အသုံးပြုလိုသည့် မက်ထရစ်ကို သတ်မှတ်နိုင်စေပါသည်။

ထပ်လောင်းအရင်းအမြစ်များ

အောက်ဖော်ပြပါ သင်ခန်းစာများသည် ဆုတ်ယုတ်မှုပုံစံများအကြောင်း နောက်ထပ်အချက်အလက်များကို ပေးဆောင်သည်-

Regression ရှိ Multicollinearity နှင့် VIF အတွက်လမ်းညွှန်
ကောင်းသော AIC တန်ဖိုးကို အဘယ်အရာက သတ်မှတ်သနည်း။

မှတ်ချက်တစ်ခုထည့်ပါ။

သင့် email လိပ်စာကို ဖော်ပြမည် မဟုတ်ပါ။ လိုအပ်သော ကွက်လပ်များကို * ဖြင့်မှတ်သားထားသည်