Python တွင် one-hot encoding ပြုလုပ်နည်း


One-hot encoding ကို machine learning algorithms မှ အလွယ်တကူ အသုံးပြုနိုင်သော အမျိုးအစားအဖြစ် ပြောင်းလဲနိုင်သော အမျိုးအစားအဖြစ် ပြောင်းလဲရန် အသုံးပြုပါသည်။

one-hot coding ၏ အခြေခံအယူအဆမှာ 0 နှင့် 1 တန်ဖိုးများကို မူရင်းအမျိုးအစားတန်ဖိုးများကိုကိုယ်စားပြုရန်အတွက် variable အသစ်များကိုဖန်တီးရန်ဖြစ်သည်။

ဥပမာအားဖြင့်၊ အောက်ပါပုံသည် 0 နှင့် 1 တန်ဖိုးများသာရှိသော အမျိုးအစားအသစ်များပါရှိသော အဖွဲ့အမည်များပါရှိသော အမျိုးအစားကွဲပြားသော variable တစ်ခုကို ပြောင်းလဲရန်အတွက် ကျွန်ုပ်တို့သည် one-hot ကုဒ်နံပါတ်ကို မည်သို့ပြသထားသည်ကို ပြသသည်-

အောက်ပါ အဆင့်ဆင့် ဥပမာသည် Python ရှိ ဤအတိအကျဒေတာအတွဲအတွက် one-hot encoding လုပ်နည်းကို ပြသထားသည်။

အဆင့် 1: ဒေတာကိုဖန်တီးပါ။

ပထမဦးစွာ၊ အောက်ပါပန်ဒါ DataFrame ကိုဖန်တီးကြပါစို့။

 import pandas as pd

#createDataFrame
df = pd. DataFrame ({' team ': ['A', 'A', 'B', 'B', 'B', 'B', 'C', 'C'],
                   ' points ': [25, 12, 15, 14, 19, 23, 25, 29]})

#view DataFrame
print (df)

  team points
0 to 25
1 to 12
2 B 15
3 B 14
4 B 19
5 B 23
6 C 25
7 C 29

အဆင့် 2- ပူပြင်းသော ကုဒ်နံပါတ်ကို လုပ်ဆောင်ပါ။

ထို့နောက်၊ sklearn စာကြည့်တိုက်မှ OneHotEncoder() လုပ်ဆောင်ချက်ကို တင်သွင်းပြီး pandas DataFrame ရှိ ‘team’ variable တွင် hot encoding ကိုလုပ်ဆောင်ရန် ၎င်းကိုအသုံးပြုကြပါစို့။

 from sklearn. preprocessing import OneHotEncoder

#creating instance of one-hot-encoder
encoder = OneHotEncoder(handle_unknown=' ignore ')

#perform one-hot encoding on 'team' column 
encoder_df = pd. DataFrame ( encoder.fit_transform (df[[' team ']]). toarray ())

#merge one-hot encoded columns back with original DataFrame
final_df = df. join (encoder_df)

#view final df
print (final_df)

  team points 0 1 2
0 to 25 1.0 0.0 0.0
1 to 12 1.0 0.0 0.0
2 B 15 0.0 1.0 0.0
3 B 14 0.0 1.0 0.0
4 B 19 0.0 1.0 0.0
5 B 23 0.0 1.0 0.0
6 C 25 0.0 0.0 1.0
7 C 29 0.0 0.0 1.0

မူရင်း “ အဖွဲ့” ကော်လံတွင် ထူးခြားသောတန်ဖိုး သုံးခုပါရှိသောကြောင့် ကော်လံအသစ်သုံးခုကို DataFrame သို့ ပေါင်းထည့်ခဲ့ကြောင်း သတိပြုပါ။

မှတ်ချက်OneHotEncoder() လုပ်ဆောင်ချက်အတွက် စာရွက်စာတမ်းအပြည့်အစုံကို ဤနေရာတွင် ရှာဖွေနိုင်ပါသည်။

အဆင့် 3- မူရင်း categorical variable ကို ဖယ်ရှားပါ။

နောက်ဆုံးတွင်၊ ကျွန်ုပ်တို့သည် ၎င်းကို မလိုအပ်တော့သောကြောင့် မူရင်း ‘အဖွဲ့’ variable ကို DataFrame မှ ဖယ်ရှားနိုင်သည်-

 #drop 'team' column
final_df. drop (' team ', axis= 1 , inplace= True )

#view final df
print (final_df)

   points 0 1 2
0 25 1.0 0.0 0.0
1 12 1.0 0.0 0.0
2 15 0.0 1.0 0.0
3 14 0.0 1.0 0.0
4 19 0.0 1.0 0.0
5 23 0.0 1.0 0.0
6 25 0.0 0.0 1.0
7 29 0.0 0.0 1.0

ဆက်စပ်- Pandas ရှိ ကော်လံများကို ဖျက်နည်း (နည်းလမ်း 4 ခု)

၎င်းတို့ကိုဖတ်ရလွယ်ကူစေရန် နောက်ဆုံး DataFrame ၏ကော်လံများကိုလည်း အမည်ပြောင်းနိုင်သည်-

 #rename columns
final_df. columns = ['points', 'teamA', 'teamB', 'teamC']

#view final df
print (final_df)

   points teamA teamB teamC
0 25 1.0 0.0 0.0
1 12 1.0 0.0 0.0
2 15 0.0 1.0 0.0
3 14 0.0 1.0 0.0
4 19 0.0 1.0 0.0
5 23 0.0 1.0 0.0
6 25 0.0 0.0 1.0
7 29 0.0 0.0 1.0

One-hot encoding ပြီးပါပြီ၊ ယခုကျွန်ုပ်တို့လိုချင်သော မည်သည့် machine learning algorithm တွင် ဤပန်ဒါ DataFrame ကို ထည့်သွင်းနိုင်ပါပြီ။

ထပ်လောင်းအရင်းအမြစ်များ

Python တွင် ဖြတ်တောက်ထားသော ဆိုလိုရင်းကို တွက်ချက်နည်း
Python တွင် linear regression လုပ်နည်း
Python တွင် Logistic Regression ကို မည်သို့လုပ်ဆောင်မည်နည်း။

မှတ်ချက်တစ်ခုထည့်ပါ။

သင့် email လိပ်စာကို ဖော်ပြမည် မဟုတ်ပါ။ လိုအပ်သော ကွက်လပ်များကို * ဖြင့်မှတ်သားထားသည်