အညွှန်းကုဒ်သွင်းခြင်း သို့မဟုတ် hot one-hot encoding- ကွာခြားချက်ကား အဘယ်နည်း။
စက်သင်ယူမှုတွင် မကြာခဏဆိုသလို ကျွန်ုပ်တို့သည် အယ်လဂိုရီသမ်များဖြင့် အလွယ်တကူ အသုံးပြုနိုင်သော ဂဏန်းဖော်မတ်အချို့သို့ အမျိုးအစားအလိုက် ကိန်း ရှင်များ ကို ပြောင်းလဲလိုကြသည်။
categorical variable များကို numeric variables အဖြစ်သို့ပြောင်းလဲရန် ဘုံနည်းလမ်းနှစ်ခုရှိသည်။
1. အညွှန်း ကုဒ်နံပါတ်- အက္ခရာစဉ်အလိုက် အမျိုးအစားအလိုက် တန်ဖိုးတစ်ခုစီကို အက္ခရာစဉ်အလိုက် ကိန်းပြည့်တန်ဖိုးကို သတ်မှတ်ပါ။
2. One Hot Encoding- မူရင်းအမျိုးအစားတန်ဖိုးများကိုကိုယ်စားပြုရန် တန်ဖိုး 0 နှင့် 1 ကိုယူသည့် variable အသစ်များကိုဖန်တီးပါ။
ဥပမာအားဖြင့်၊ ကျွန်ုပ်တို့တွင် ကိန်းရှင်နှစ်ခုပါသော အောက်ပါဒေတာအစုံရှိသည်ဆိုပါစို့၊ ကျွန်ုပ်တို့သည် Team variable အား အမျိုးအစားခွဲကွဲပြားသည့်ကိန်းရှင်တစ်ခုမှ ကိန်းဂဏာန်းပြောင်းလဲမှုတစ်ခုသို့ ပြောင်းလဲလိုသည်ဆိုပါစို့။

အောက်ဖော်ပြပါနမူနာများသည် ၎င်းကိုလုပ်ဆောင်ရန် tag encoding နှင့် one-hot encoding နှစ်မျိုးလုံးကိုအသုံးပြုပုံကိုပြသထားသည်။
ဥပမာ- Label Encoding ကို အသုံးပြုခြင်း။
အညွှန်း ကုဒ်နံပါတ်ကို အသုံးပြု၍ အဖွဲ့ ကော်လံရှိ သီးသန့်တန်ဖိုးတစ်ခုစီကို အက္ခရာစဉ်အလိုက် ကိန်းပြည့်တန်ဖိုးအဖြစ်သို့ ပြောင်းပါမည်-

ဤဥပမာတွင်ကျွန်ုပ်တို့မြင်နိုင်သည်:
- “A” တန်ဖိုးတစ်ခုစီကို 0 သို့ ပြောင်းထားသည်။
- “B” တန်ဖိုးတစ်ခုစီကို 1 အဖြစ်သို့ ပြောင်းထားသည်။
- “C” တန်ဖိုးတစ်ခုစီကို 2 သို့ပြောင်းထားသည်။
ကျွန်ုပ်တို့သည် အဖွဲ့ ကော်လံကို အမျိုးအစားခွဲသည့်ကိန်းရှင်မှ ဂဏန်းကိန်းဂဏန်းအဖြစ်သို့ အောင်မြင်စွာပြောင်းလဲလိုက်ပါသည်။
ဥပမာ- hot one-hot ကုဒ်ကို အသုံးပြုခြင်း။
one-hot encoding ကိုသုံးပြီး၊ ကျွန်ုပ်တို့သည် 0 နှင့် 1 တန်ဖိုးများသာပါရှိသော ကိန်းရှင်အသစ်များအဖြစ် Team ကော်လံကို ပြောင်းပါမည် –

ဤချဉ်းကပ်မှုကို ကျွန်ုပ်တို့အသုံးပြုသောအခါ၊ မူရင်းအမျိုးအစားကွဲပြားသည့်ကိန်းရှင်တွင် ထူးခြားသောတန်ဖိုးတစ်ခုစီအတွက် ကော်လံအသစ်တစ်ခုကို ကျွန်ုပ်တို့ဖန်တီးပါသည်။
ဥပမာအားဖြင့်၊ အမျိုးအစားခွဲခြားနိုင်သော ကိန်းရှင် အဖွဲ့တွင် ထူးခြားသောတန်ဖိုးသုံးခု ရှိသည်၊ ထို့ကြောင့် ကျွန်ုပ်တို့သည် ဒေတာအတွဲတွင် ကော်လံအသစ်သုံးခုကို ဖန်တီးခဲ့သည်။
ဤသည်မှာ ကော်လံအသစ်များတွင် တန်ဖိုးများကို အဓိပ္ပာယ်ဖွင့်ဆိုပုံဖြစ်သည်-
- Team_A ကော်လံအသစ်၏တန်ဖိုးသည် Team ကော်လံ၏မူလတန်ဖိုးသည် A ဖြစ်ပါက 1 ဖြစ်သည်။ သို့မဟုတ်ပါက တန်ဖိုးသည် 0 ဖြစ်သည်။
- Team_B ကော်လံအသစ်၏တန်ဖိုးသည် Team ကော်လံ၏မူလတန်ဖိုး B ဖြစ်ပါက 1 ဖြစ်သည်။ သို့မဟုတ်ပါက တန်ဖိုးသည် 0 ဖြစ်သည်။
- Team_C ကော်လံအသစ်၏တန်ဖိုးသည် Team ကော်လံ၏မူလတန်ဖိုး C ဖြစ်ပါက 1 ဖြစ်သည်။ သို့မဟုတ်ပါက တန်ဖိုးသည် 0 ဖြစ်သည်။
ကျွန်ုပ်တို့သည် အဖွဲ့ ကော်လံကို အမျိုးအစားခွဲခြားနိုင်သော ကိန်းရှင်တစ်ခုမှ ကိန်းဂဏန်းကိန်းရှင် သုံးခုသို့ အောင်မြင်စွာပြောင်းလဲနိုင်ခဲ့သည် – တစ်ခါတစ်ရံ “dummy” ကိန်းရှင်များဟုခေါ်သည်။
မှတ်ချက် – ဤ “ dummy” variable များကို regression model သို့မဟုတ် အခြားသော machine learning algorithm တွင် အသုံးပြုသောအခါ၊ dummy variable trap ကို ရှောင်ရှားရန် သတိထားပါ။
Tag encoding နဲ့ one-hot encoding ကို ဘယ်အချိန်မှာ သုံးမလဲ။
အခြေအနေအများစုတွင်၊ one-hot encoding သည် categorical variable ကို numeric variable အဖြစ်ပြောင်းရန် ဦးစားပေးနည်းလမ်းဖြစ်ပြီး အညွှန်းကုဒ်ကုဒ်သည် တန်ဖိုးများကြားတွင် အဆင့်သတ်မှတ်ခြင်းရှိနေသည်ဟု ထင်ရသောကြောင့်ဖြစ်သည်။
ဥပမာအားဖြင့်၊ ကျွန်ုပ်တို့သည် အဖွဲ့အား ကိန်းဂဏာန်းပြောင်းလဲနိုင်သောအဖြစ်သို့ ပြောင်းလဲရန် အညွှန်းစာဝှက်ကို အသုံးပြုခဲ့သည့် ဖြစ်ရပ်ကို သုံးသပ်ကြည့်ပါ-

အညွှန်းဖြင့် ကုဒ်လုပ်ထားသော ဒေတာသည် Team C သည် ဂဏန်းတန်ဖိုး ပိုမြင့်သောကြောင့် Team B နှင့် A ထက် တစ်နည်းနည်းဖြင့် ပိုကြီး သို့မဟုတ် မြင့်သည်ဟု ထင်ရှားစေသည်။
မူလ categorical variable သည် သဘာဝအတိုင်း စီစစ်မှု သို့မဟုတ် အဆင့်သတ်မှတ်ထားသော သာမန်ကိန်းရှင်တစ်ခုဖြစ်လျှင် ၎င်းသည် ပြဿနာမဟုတ်ပေ၊ သို့သော် အခြေအနေများစွာတွင် ယင်းသည် ကိစ္စမဟုတ်ပါ။
သို့သော်လည်း၊ one-hot coding ၏ အားနည်းချက်များထဲမှ တစ်ခုမှာ မူရင်း categorical variable တွင် ထူးခြားသော တန်ဖိုးများ ရှိနေသကဲ့သို့ ကိန်းရှင်အသစ်များ ဖန်တီးရန် လိုအပ်ပါသည်။
ဆိုလိုသည်မှာ သင်၏ အမျိုးအစားအလိုက် ကိန်းရှင်သည် ထူးထူးခြားခြား တန်ဖိုးများ 100 ရှိပါက၊ one-hot encoding ကိုအသုံးပြုသောအခါတွင် ကိန်းရှင်အသစ် 100 ကို ဖန်တီးရန် လိုအပ်ပါသည်။
သင့်ဒေတာအစုံ၏ အရွယ်အစားနှင့် သင်လုပ်ဆောင်နေသော ကိန်းရှင်အမျိုးအစားပေါ်မူတည်၍ one-hot encoding သို့မဟုတ် label encoding ကို သင်နှစ်သက်နိုင်သည်။
ထပ်လောင်းအရင်းအမြစ်များ
အောက်ဖော်ပြပါ သင်ခန်းစာများသည် အညွှန်းစာဝှက်ခြင်းအား လက်တွေ့တွင် မည်သို့လုပ်ဆောင်ရမည်ကို ရှင်းပြသည်-
အောက်ပါ သင်ခန်းစာများတွင် one-hot encoding လုပ်နည်းကို လက်တွေ့တွင် ရှင်းပြသည်-