Dummy variable trap ကဘာလဲ။ (အဓိပ္ပါယ် & #038; ဥပမာ)


Linear regression သည် တစ်ခု သို့မဟုတ် တစ်ခုထက်ပိုသော ကြိုတင်ခန့်မှန်းကိန်းရှင်များနှင့် တုံ့ပြန်မှု variable အကြား ဆက်နွယ်မှုကို တွက်ချက်ရန် ကျွန်ုပ်တို့ အသုံးပြုနိုင်သည့် နည်းလမ်းတစ်ခုဖြစ်သည်။

ယေဘူယျအားဖြင့် ကျွန်ုပ်တို့သည် ပမာဏကိန်းရှင်များ နှင့်အတူ linear regression ကိုအသုံးပြုသည်။ တစ်ခါတစ်ရံ “ဂဏန်း” ကိန်းရှင်များဟု ခေါ်သည်၊ ၎င်းတို့သည် တိုင်းတာနိုင်သော ပမာဏကို ကိုယ်စားပြုသော ကိန်းရှင်များဖြစ်သည်။ ဥပမာများ ပါဝင်သည်-

  • အိမ်တစ်အိမ်တွင် စတုရန်းပေ အရေအတွက်
  • မြို့၏လူဦးရေအရွယ်အစား
  • တစ်ဦးချင်း၏အသက်

သို့သော် တစ်ခါတစ်ရံတွင် ကျွန်ုပ်တို့သည် အမျိုးအစားအလိုက် ကိန်းရှင်များကို ကြိုတင်ခန့်မှန်းကိန်းရှင်များအဖြစ် အသုံးပြုလိုပါသည်။ ၎င်းတို့သည် အမည်များ သို့မဟုတ် အညွှန်းများကို ယူကာ အမျိုးအစားများအဖြစ် ပြောင်းလဲနိုင်သော ကိန်းရှင်များဖြစ်သည်။ ဥပမာများ ပါဝင်သည်-

  • မျက်လုံးအရောင် (ဥပမာ “ အပြာ” ၊ “ စိမ်း” ၊ “ အညို” )
  • ကျား-မ (ဥပမာ “ ယောက်ျား” ၊ “ မိန်းမ” )
  • အိမ်ထောင်ရေးအခြေအနေ (ဥပမာ “ လက်ထပ်” ၊ “ လူပျို” ၊ “ ကွာရှင်း” )

categorical variables များကိုအသုံးပြုသောအခါ၊ 1၊ 2၊ 3 ကဲ့သို့သောတန်ဖိုးများကို “ blue” “ green” နှင့် “ brown” ကဲ့သို့တန်ဖိုးများအဖြစ်သတ်မှတ်ခြင်းသည်အဓိပ္ပါယ်မရှိသောကြောင့်၎င်းသည်အဓိပ္ပာယ်မရှိပေ။ အစိမ်းက နှစ်ဆ။ အပြာရောင် သို့မဟုတ် အညိုကဲ့သို့ ရောင်စုံသည် အပြာထက် သုံးဆ ပိုအရောင်စုံသည်။

ယင်းအစား၊ ဖြေရှင်းချက်မှာ dummy variable များကို အသုံးပြုရန်ဖြစ်သည်။ ၎င်းတို့သည် ဆုတ်ယုတ်မှု ခွဲခြမ်းစိတ်ဖြာမှုအတွက် အထူးဖန်တီးထားသော ကိန်းရှင်များဖြစ်ပြီး တန်ဖိုးနှစ်ခုအနက်မှ တစ်ခုကို ရယူသည်- သုည သို့မဟုတ် တစ်ခုဖြစ်သည်။

ကျွန်ုပ်တို့ဖန်တီးရန်လိုအပ်သည့် dummy variable အရေအတွက် k -1 နှင့် ညီမျှပြီး k သည် categorical variable မှယူနိုင်သော မတူညီသောတန်ဖိုးများအရေအတွက်ဖြစ်သည်။

ဥပမာအားဖြင့်၊ ကျွန်ုပ်တို့တွင် အောက်ပါဒေတာအစုံရှိပြီး ဝင်ငွေ ခန့်မှန်းရန် အိမ်ထောင်ရေးအခြေအနေ နှင့် အသက်ကို အသုံးပြုလိုသည်ဆိုပါစို့။

ဆုတ်ယုတ်မှုပုံစံတစ်ခုရှိ အိမ်ထောင်ရေးအခြေအနေအား ကြိုတင်ခန့်မှန်းနိုင်သောကိန်းရှင်အဖြစ် အသုံးပြုရန်၊ ၎င်းကို အတုမဲ့ကိန်းရှင်အဖြစ် ပြောင်းလဲရန် လိုအပ်သည်။

၎င်းသည် လောလောဆယ်တွင် မတူညီသောတန်ဖိုး (“ လူပျို” ၊ “ အိမ်ထောင်သည်” သို့မဟုတ် “ ကွာရှင်းသည်” ) တွင် မတူညီသောတန်ဖိုးသုံးခုကိုယူဆောင်နိုင်သည့် အမျိုးအစားခွဲကွဲပြားသည့်ကိန်းရှင်ဖြစ်သောကြောင့်၊ ကျွန်ုပ်တို့သည် k -1 = 3-1 = 2 dummy ကိန်းရှင်များကို ဖန်တီးရန်လိုအပ်ပါသည်။

ဤကိန်းဂဏန်းမပြောင်းလဲနိုင်သောကိန်းရှင်ကို ဖန်တီးရန်အတွက်၊ ကျွန်ုပ်တို့သည် မကြာခဏဆိုသလိုပေါ်လာသောကြောင့် အခြေခံတန်ဖိုးအဖြစ် “ Single” ကို ချန်ထားနိုင်သည်။ ထို့ကြောင့်၊ ဤတွင်၊ ကျွန်ုပ်တို့သည် အိမ်ထောင်ရေးအခြေနေကို dummy variable အဖြစ်သို့ မည်သို့ပြောင်းလဲနိုင်မည်နည်း။

တန်ဖိုး သုံးခုပါသည့် Dummy ကိန်းရှင်

ထို့နောက် ကျွန်ုပ်တို့သည် အသက်အိမ်ထောင်သည် နှင့် ကွာရှင်းပြတ်စဲခြင်းကို ဆုတ်ယုတ်မှုပုံစံတွင် ကြိုတင်ခန့်မှန်းနိုင်သောကိန်းရှင်များအဖြစ် အသုံးပြုနိုင်သည်။

dummy variable များကို ဖန်တီးသောအခါတွင် ဖြစ်ပေါ်လာနိုင်သည့် ပြဿနာကို dummy variable trap ဟုခေါ်သည်။ k -1 dummy variable များအစား k dummy variable များကို ဖန်တီးသောအခါ ၎င်းသည် ဖြစ်ပေါ်လာသည်။

ဒီလိုဖြစ်လာတဲ့အခါ၊ အနည်းဆုံး dummy variable နှစ်ခုဟာ ပြီးပြည့်စုံတဲ့ multicollinearity ကို ခံစားရမှာပါ။ တစ်နည်းဆိုရသော် ၎င်းတို့သည် လုံးဝဆက်စပ်နေမည်ဖြစ်သည်။ ၎င်းသည် ဆုတ်ယုတ်မှုကိန်းဂဏန်းများနှင့် ၎င်းတို့၏သက်ဆိုင်သော p-တန်ဖိုးများကို မှားယွင်းစွာ တွက်ချက်မှုများဖြစ်ပေါ်စေသည်။

Dummy variable trap- ဖန်တီးထားသော dummy variable အရေအတွက်သည် categorical value ယူနိုင်သော တန်ဖိုးအရေအတွက်နှင့် ညီမျှပါသည်။ ၎င်းသည် multicollinearity ကိုဖြစ်ပေါ်စေသည်၊ ၎င်းသည် regression coefficients နှင့် p-values များ၏မှားယွင်းသောတွက်ချက်မှုများကိုဖြစ်ပေါ်စေသည်။

ဥပမာအားဖြင့်၊ ကျွန်ုပ်တို့သည် အိမ်ထောင်ရေးအခြေအနေအား အောက်ပါအရုပ်ပြောင်းပြောင်းများအဖြစ်သို့ ပြောင်းသည်ဆိုပါစို့။

Dummy variable trap ဥပမာ

ဤကိစ္စတွင်၊ လူပျို နှင့် အိမ်ထောင်သည်များ သည် လုံးဝဆက်နွယ်နေပြီး ဆက်စပ်ဖော်ကိန်း -1 ရှိသည်။

ထို့ကြောင့် ကျွန်ုပ်တို့သည် မျဉ်းကြောင်းအတိုင်း ဆုတ်ယုတ်မှုများစွာကို လုပ်ဆောင်သောအခါ၊ ဆုတ်ယုတ်မှုကိန်းဂဏန်းများ မှားယွင်းနေလိမ့်မည်။

dummy variable trap ကို ဘယ်လိုရှောင်မလဲ။

dummy variable များ၏ထောင်ချောက်ကိုရှောင်ရှားရန် စည်းမျဉ်းတစ်ခုအား သင်မှတ်သားထားရန် လိုအပ်သည်-

အမျိုးအစားကွဲပြားသောကိန်းရှင်တစ်ခုသည် k မတူညီသောတန်ဖိုးများကိုယူနိုင်လျှင်၊ သင်သည် regression model တွင်အသုံးပြုရန် k-1 dummy variable များကိုသာဖန်တီးသင့်သည်။

ဥပမာအားဖြင့် သင်သည် categorical variable “ ကျောင်းနှစ်” ကို dummy variables အဖြစ်သို့ ပြောင်းလိုသည်ဆိုပါစို့။ ဤကိန်းရှင်သည် အောက်ပါတန်ဖိုးများကို ယူသည်ဆိုပါစို့။

  • ပထမနှစ် ကျောင်းသား
  • ဒုတိယနှစ် ကျောင်းသား
  • အလယ်တန်း
  • စီနီယာ

ဤကိန်းရှင်သည် မတူညီသောတန်ဖိုး 4 ခုကို ယူနိုင်သောကြောင့်၊ ကျွန်ုပ်တို့သည် dummy variable 3 ခုကိုသာ ဖန်တီးပါမည်။ ဥပမာအားဖြင့်၊ ကျွန်ုပ်တို့၏ dummy variable များသည်-

  • X 1 = 1 ဒုတိယနှစ် ကျောင်းသား၊ ၀ယ်တာ မဟုတ်လား။
  • X 2 = 1 if Junior; ၀ယ်တာ မဟုတ်လား။
  • X 3 = 1 yew Senior; ၀ယ်တာ မဟုတ်လား။

dummy variable အရေအတွက်သည် “ ကျောင်းနှစ်” တွင်ယူနိုင်သောတန်ဖိုးအရေအတွက်ထက်နည်းသောကြောင့်၊ dummy variable trap နှင့် multicollinearity ပြဿနာကို ရှောင်ရှားနိုင်ပါသည်။

ထပ်လောင်းအရင်းအမြစ်များ

regression ခွဲခြမ်းစိတ်ဖြာမှုတွင် dummy variables ကိုအသုံးပြုနည်း
Multiple Linear Regression အကြောင်း နိဒါန်း
Regression တွင် Multicollinearity အတွက်လမ်းညွှန်

မှတ်ချက်တစ်ခုထည့်ပါ။

သင့် email လိပ်စာကို ဖော်ပြမည် မဟုတ်ပါ။ လိုအပ်သော ကွက်လပ်များကို * ဖြင့်မှတ်သားထားသည်