Regression ခွဲခြမ်းစိတ်ဖြာမှုတွင် dummy variables ကိုအသုံးပြုနည်း


Linear regression သည် တစ်ခု သို့မဟုတ် တစ်ခုထက်ပိုသော ကြိုတင်ခန့်မှန်းကိန်းရှင်များနှင့် တုံ့ပြန်မှု variable အကြား ဆက်နွယ်မှုကို တွက်ချက်ရန် ကျွန်ုပ်တို့ အသုံးပြုနိုင်သည့် နည်းလမ်းတစ်ခုဖြစ်သည်။

ယေဘူယျအားဖြင့် ကျွန်ုပ်တို့သည် ပမာဏကိန်းရှင်များ နှင့်အတူ linear regression ကိုအသုံးပြုသည်။ တစ်ခါတစ်ရံ “ဂဏန်း” ကိန်းရှင်များဟု ခေါ်သည်၊ ၎င်းတို့သည် တိုင်းတာနိုင်သော ပမာဏကို ကိုယ်စားပြုသော ကိန်းရှင်များဖြစ်သည်။ ဥပမာများ ပါဝင်သည်-

  • အိမ်တစ်အိမ်တွင် စတုရန်းပေ အရေအတွက်
  • မြို့၏လူဦးရေအရွယ်အစား
  • တစ်ဦးချင်း၏အသက်

သို့သော် တစ်ခါတစ်ရံတွင် ကျွန်ုပ်တို့သည် အမျိုးအစားအလိုက် ကိန်းရှင်များကို ကြိုတင်ခန့်မှန်းကိန်းရှင်များအဖြစ် အသုံးပြုလိုပါသည်။ ၎င်းတို့သည် အမည်များ သို့မဟုတ် အညွှန်းများကို ယူကာ အမျိုးအစားများအဖြစ် ပြောင်းလဲနိုင်သော ကိန်းရှင်များဖြစ်သည်။ ဥပမာများ ပါဝင်သည်-

  • မျက်လုံးအရောင် (ဥပမာ “ အပြာ” ၊ “ စိမ်း” ၊ “ အညို” )
  • ကျား-မ (ဥပမာ “ ယောက်ျား” ၊ “ မိန်းမ” )
  • အိမ်ထောင်ရေးအခြေအနေ (ဥပမာ “ လက်ထပ်” ၊ “ လူပျို” ၊ “ ကွာရှင်း” )

categorical variables များကိုအသုံးပြုသောအခါ၊ 1၊ 2၊ 3 ကဲ့သို့သော တန်ဖိုးများကို “ blue” “ green” နှင့် “ brown” ကဲ့သို့ တန်ဖိုးများအဖြစ် သတ်မှတ်ခြင်းသည် အဓိပ္ပါယ်မရှိသောကြောင့် အဓိပ္ပါယ်မရှိပေ။ အစိမ်းက နှစ်ဆ။ အပြာရောင် သို့မဟုတ် အညိုကဲ့သို့ ရောင်စုံသည် အပြာထက် သုံးဆ ပိုအရောင်စုံသည်။

ယင်းအစား၊ ဖြေရှင်းချက်မှာ dummy variable များကို အသုံးပြုရန်ဖြစ်သည်။ ၎င်းတို့သည် ဆုတ်ယုတ်မှု ခွဲခြမ်းစိတ်ဖြာမှုအတွက် အထူးဖန်တီးထားသော ကိန်းရှင်များဖြစ်ပြီး တန်ဖိုးနှစ်ခုအနက်မှ တစ်ခုကို ရယူသည်- သုည သို့မဟုတ် တစ်ခုဖြစ်သည်။

Dummy ကိန်းရှင်များ- ဆုတ်ယုတ်မှု ခွဲခြမ်းစိတ်ဖြာမှုတွင် အသုံးပြုသည့် ကိန်းဂဏာန်းကိန်းရှင်များသည် တန်ဖိုးနှစ်ခုမှ တစ်ခုသာယူနိုင်သော အမျိုးအစား- သုည သို့မဟုတ် တစ်ခုဖြစ်သည်။

ကျွန်ုပ်တို့ဖန်တီးရန်လိုအပ်သည့် dummy variable အရေအတွက်သည် k -1 နှင့် ညီမျှပြီး k သည် categorical variable မှယူနိုင်သော မတူညီသောတန်ဖိုးများအရေအတွက်ဖြစ်သည်။

အောက်ပါဥပမာများသည် မတူညီသောဒေတာအတွဲများအတွက် dummy variable များကိုဖန်တီးနည်းကို သရုပ်ဖော်သည်။

ဥပမာ 1- တန်ဖိုးနှစ်ခုသာရှိသော dummy variable တစ်ခုကို ဖန်တီးပါ။

ကျွန်ုပ်တို့တွင် အောက်ပါဒေတာအစုံရှိပြီး ၀င်ငွေ ခန့်မှန်းရန် ကျား နှင့် အသက်ကို အသုံးပြုလိုသည်ဆိုပါစို့။

ဆုတ်ယုတ်မှုပုံစံတစ်ခုတွင် ကျား-မ ကို ကြိုတင်ခန့်မှန်းနိုင်သောကိန်းရှင်အဖြစ် အသုံးပြုရန်၊ ၎င်းကို dummy ကိန်းရှင်အဖြစ် ပြောင်းလဲရန် လိုအပ်သည်။

၎င်းသည် လောလောဆယ်တွင် မတူညီသောတန်ဖိုးများ (“ Male” သို့မဟုတ် “ Female” ) နှစ်ခုယူနိုင်သော အမျိုးအစားခွဲကွဲပြားသည့်ကိန်းရှင်တစ်ခုဖြစ်သောကြောင့်၊ ကျွန်ုပ်တို့သည် k -1 = 2-1 = 1 dummy variable ကို ဖန်တီးပါသည်။

ဤအရုပ်ပြောင်းပြောင်းကိုဖန်တီးရန်၊ ကျွန်ုပ်တို့သည် 0 ကိုကိုယ်စားပြုရန်နှင့် အခြားတစ်ခုကို ကိုယ်စားပြုရန် တန်ဖိုးများ (“ ယောကျာ်း” သို့မဟုတ် “ အမျိုးသမီး” ) ကို ရွေးချယ်နိုင်ပါသည်။

ယေဘုယျအားဖြင့်၊ ကျွန်ုပ်တို့သည် ဤဒေတာအတွဲတွင် “ ယောကျာ်း” ဖြစ်မည့် 0 ဖြင့် မကြာခဏ အများဆုံးတန်ဖိုးကို ကိုယ်စားပြုပါသည်။

ဒီတော့ ကျား၊မ မတူကွဲပြားတဲ့ ကိန်းရှင်အဖြစ် ပြောင်းလဲနည်းကို ဒီမှာ ဖော်ပြလိုက်ပါတယ်။

Dummy variable ဥပမာ

ထို့နောက် ကျွန်ုပ်တို့သည် Age နှင့် Gender_Dummy ကို ဆုတ်ယုတ်မှုပုံစံတွင် ကြိုတင်ခန့်မှန်းနိုင်သောကိန်းရှင်များအဖြစ် အသုံးပြုနိုင်သည်။

ဥပမာ 2- တန်ဖိုးများစွာဖြင့် dummy variable တစ်ခုကို ဖန်တီးပါ။

ကျွန်ုပ်တို့တွင် အောက်ပါဒေတာအစုံရှိပြီး ဝင်ငွေကို ခန့်မှန်းရန် အိမ်ထောင်ရေးအခြေအနေ နှင့် အသက်ကို အသုံးပြုလိုသည်ဆိုပါစို့။

ဆုတ်ယုတ်မှုပုံစံတစ်ခုရှိ အိမ်ထောင်ရေးအခြေအနေအား ကြိုတင်ခန့်မှန်းနိုင်သောကိန်းရှင်အဖြစ် အသုံးပြုရန်၊ ၎င်းကို အတုမဲ့ကိန်းရှင်အဖြစ် ပြောင်းလဲရန် လိုအပ်သည်။

၎င်းသည် လောလောဆယ်တွင် မတူညီသောတန်ဖိုး (“ Single” , “ Married” သို့မဟုတ် “ Divorced” ) တွင် မတူညီသောတန်ဖိုးသုံးခုကိုယူဆောင်နိုင်သည့် အမျိုးအစားခွဲကွဲပြားသည့်ကိန်းရှင်ဖြစ်သောကြောင့်၊ ကျွန်ုပ်တို့သည် k -1 = 3-1 = 2 dummy variables ကိုဖန်တီးရန် လိုအပ်ပါသည်။

ဤကိန်းဂဏန်းမပြောင်းလဲနိုင်သောကိန်းရှင်ကို ဖန်တီးရန်အတွက်၊ ကျွန်ုပ်တို့သည် မကြာခဏဆိုသလိုပေါ်လာသောကြောင့် အခြေခံတန်ဖိုးအဖြစ် “ Single” ကို ချန်ထားနိုင်သည်။ ထို့ကြောင့်၊ ဤတွင်၊ ကျွန်ုပ်တို့သည် အိမ်ထောင်ရေးအခြေနေကို dummy variable အဖြစ်သို့ မည်သို့ပြောင်းလဲနိုင်မည်နည်း။

တန်ဖိုး သုံးခုပါသည့် Dummy ကိန်းရှင်

ထို့နောက် ကျွန်ုပ်တို့သည် အသက်အိမ်ထောင်သည် နှင့် ကွာရှင်းပြတ်စဲခြင်းကို ဆုတ်ယုတ်မှုပုံစံတွင် ကြိုတင်ခန့်မှန်းနိုင်သောကိန်းရှင်များအဖြစ် အသုံးပြုနိုင်သည်။

dummy variable များဖြင့် regression output ကို မည်သို့အဓိပ္ပာယ်ဖွင့်ဆိုမည်နည်း။

ကျွန်ုပ်တို့သည် အသက်အိမ်ထောင်ရှင် ၊ နှင့် ကွာရှင်းပြတ်စဲခြင်းတို့ကို ခန့်မှန်းသည့်ကိန်းရှင်များနှင့် ဝင်ငွေ အဖြစ် တုံ့ပြန်မှုကိန်းရှင်အဖြစ် ယခင်ဥပမာမှ ဒေတာအစုံကို အသုံးပြု၍ များပြားသောမျဉ်းကြောင်းဆုတ်ယုတ်မှု ပုံစံတစ်ခုနှင့် အံကိုက်ဖြစ်သည်ဆိုပါစို့။

ဤသည်မှာ ဆုတ်ယုတ်ခြင်း၏ ရလဒ်ဖြစ်သည်။

regression output တွင် dummy variable များကို အဓိပ္ပာယ်ဖွင့်ဆိုပုံ

တပ်ဆင်ထားသော ဆုတ်ယုတ်မှုမျဉ်းကို အောက်ပါအတိုင်း သတ်မှတ်သည်။

ဝင်ငွေ = 14,276.21 + 1,471.67*(အသက်) + 2,479.75*(လက်ထပ်) – 8,397.40*(ကွာရှင်းပြီး)

လူတစ်ဦးချင်းစီ၏ အသက်အရွယ်နှင့် အိမ်ထောင်ရေးအခြေအနေပေါ်မူတည်၍ လူတစ်ဦးချင်းစီ၏ ခန့်မှန်းဝင်ငွေကို ရှာဖွေရန် ဤညီမျှခြင်းကို အသုံးပြုနိုင်သည်။ ဥပမာအားဖြင့်၊ အသက် 35 နှစ်နှင့် အိမ်ထောင်သည်တစ်ဦးသည် ခန့်မှန်းခြေဝင်ငွေ $68,264 ရှိလိမ့်မည်-

ဝင်ငွေ = 14,276.21 + 1,471.67*(35) + 2,479.75*(1) – 8,397.40*(0) = $68,264

ဤသည်မှာ ဇယားရှိ ဆုတ်ယုတ်မှုကိန်းများကို အဓိပ္ပာယ်ဖွင့်ဆိုပုံဖြစ်သည် ။

  • ကြားဖြတ်- ကြားဖြတ်သည် အသက် သုည လူတစ်ဦး၏ ပျမ်းမျှဝင်ငွေကို ကိုယ်စားပြုသည်။ သေချာသည်မှာ သင့်တွင် သုညနှစ်မရှိနိုင်သောကြောင့် ဤအထူးဆုတ်ယုတ်မှုပုံစံတွင် ကြားဖြတ်ကို သူ့ဘာသာသူ အဓိပ္ပာယ်ပြန်ဆိုရန် အဓိပ္ပါယ်မရှိပေ။
  • အသက်အရွယ်- အသက်အရွယ် တိုးလာခြင်းသည် တစ်နှစ်လျှင် ပျမ်းမျှဝင်ငွေ $1,471.67 တိုးလာခြင်းနှင့် ဆက်စပ်နေသည်။ p-value (0.00) သည် 0.05 ထက်နည်းသောကြောင့်၊ အသက်သည် ဝင်ငွေ၏ ကိန်းဂဏန်းအရ သိသာထင်ရှားသော ခန့်မှန်းပေးသူဖြစ်သည်။
  • အိမ်ထောင်သည်- အိမ်ထောင်သည်တစ်ဦးသည် တစ်ဦးတစ်ယောက်တည်းထက် ပျမ်းမျှ $2,479.75 ရရှိသည်။ p-value (0.80) သည် 0.05 ထက်မနည်းသောကြောင့်၊ ဤကွာခြားချက်မှာ ကိန်းဂဏန်းအရ သိသာထင်ရှားခြင်းမရှိပါ။
  • ကွာရှင်းပြတ်စဲခြင်း- ကွာရှင်းပြတ်စဲသူတစ်ဦးသည် တစ်ဦးတစ်ယောက်ထက် ပျမ်းမျှ $8,397.40 ရရှိသည်။ p-value (0.53) သည် 0.05 ထက်မနည်းသောကြောင့်၊ ဤကွာခြားချက်မှာ ကိန်းဂဏန်းအရ သိသာထင်ရှားခြင်းမရှိပါ။

ကိန်းဂဏန်းနှစ်ခုစလုံးသည် ကိန်းဂဏန်းအရ သိသာထင်ရှားခြင်းမရှိသောကြောင့်၊ ဝင်ငွေအတွက် ခန့်မှန်းတန်ဖိုးကို ထည့်မထားသည့်ပုံပေါ်သောကြောင့်၊ ကျွန်ုပ်တို့သည် အိမ်ထောင်ရေးအခြေအနေအား ခန့်မှန်းသူအဖြစ် မော်ဒယ်မှ ဖယ်ရှားနိုင်ပါသည်။

ထပ်လောင်းအရင်းအမြစ်များ

အရည်အသွေးနှင့် အရေအတွက် ကိန်းရှင်များ
dummy variable ထောင်ချောက်
Regression Table ကို ဘယ်လိုဖတ်ပြီး အဓိပါယ်ရမလဲ
P တန်ဖိုးများနှင့် စာရင်းအင်းဆိုင်ရာ အရေးပါမှုဆိုင်ရာ ရှင်းလင်းချက်

မှတ်ချက်တစ်ခုထည့်ပါ။

သင့် email လိပ်စာကို ဖော်ပြမည် မဟုတ်ပါ။ လိုအပ်သော ကွက်လပ်များကို * ဖြင့်မှတ်သားထားသည်