Pandas တွင် အမျိုးအစားခွဲကွဲပြားသော ကွဲပြားမှုများကို ဖန်တီးနည်း (ဥပမာများဖြင့်)
ပန်ဒါများတွင် အမျိုးအစားခွဲခြားနိုင်သော ကိန်းရှင် တစ်ခုကို ဖန်တီးရန် အောက်ပါနည်းလမ်းများကို သင်အသုံးပြုနိုင်သည်-
နည်းလမ်း ၁
df[' cat_variable '] = [' A ', ' B ', ' C ', ' D ']
နည်းလမ်း 2- ရှိပြီးသား ကိန်းဂဏာန်းကိန်းရှင်တစ်ခုမှ အမျိုးအစားအလိုက် ကိန်းရှင်တစ်ခုကို ဖန်တီးပါ။
df[' cat_variable '] = pd. cut (df[' numeric_variable '], bins=[ 0,15,25 ,float(' Inf ') ] , labels=[' Bad ', ' OK ', ' Good '])
အောက်ဖော်ပြပါ ဥပမာများသည် နည်းလမ်းတစ်ခုစီကို လက်တွေ့အသုံးချနည်းကို ပြသထားသည်။
ဥပမာ 1- Scratch မှ အမျိုးအစားခွဲပြောင်းလဲနိုင်သော ပုံစံတစ်ခုကို ဖန်တီးပါ။
အောက်ပါ ကုဒ် သည် အဖွဲ့ ဟုခေါ်သော အမျိုးအစားခွဲကွဲပြားသည့် variable တစ်ခုနှင့် pandas DataFrame ဖန်တီးနည်းကို ပြသသည်-
import pandas as pd
#create DataFrame with one categorical variable and one numeric variable
df = pd. DataFrame ({' team ': ['A', 'B', 'C', 'D', 'E', 'F', 'G', 'H'],
' points ': [12, 15, 19, 22, 24, 25, 26, 30]})
#view DataFrame
print (df)
team points
0 to 12
1 B 15
2 C 19
3 D 22
4 E 24
5 F 25
6 G 26
7:30 a.m.
#view data type of each column in DataFrame
print ( df.dtypes )
team object
int64 dots
dtype:object
df.dtypes ကို အသုံးပြုခြင်းဖြင့် DataFrame အတွင်းရှိ variable တစ်ခုစီ၏ ဒေတာအမျိုးအစားကို ကျွန်ုပ်တို့ မြင်တွေ့နိုင်ပါသည်။
ကျွန်ုပ်တို့ မြင်နိုင်သည်-
- team variable သည် object တစ်ခုဖြစ်သည်။
- အမှတ်များ ပြောင်းလဲနိုင်သော ကိန်းပြည့်သည် ကိန်းပြည့် ဖြစ်သည်။
Python တွင်၊ အရာဝတ္ထု တစ်ခုသည် ဇာတ်ကောင်တစ်ခု သို့မဟုတ် “ categorical” variable တစ်ခုနှင့် ညီမျှသည်။ ထို့ကြောင့် team variable သည် categorical variable ဖြစ်သည်။
ဥပမာ 2- ရှိပြီးသား ကိန်းဂဏာန်းကိန်းရှင်တစ်ခုမှ အမျိုးအစားအလိုက် ကိန်းရှင်တစ်ခုကို ဖန်တီးပါ။
အောက်ဖော်ပြပါ ကုဒ်သည် DataFrame ရှိ ရှိပြီးသား ကိန်းဂဏာန်း ကိန်းရှင် များထဲမှ အမှတ်များ ဟုခေါ်သော အမျိုးအစားအလိုက် ပြောင်းလဲနိုင်သော ကိန်းရှင်တစ်ခုကို မည်သို့ဖန်တီးရမည်ကို ပြသသည်-
import pandas as pd
#create DataFrame with one categorical variable and one numeric variable
df = pd. DataFrame ({' team ': ['A', 'B', 'C', 'D', 'E', 'F', 'G', 'H'],
' points ': [12, 15, 19, 22, 24, 25, 26, 30]})
#create categorical variable 'status' based on existing numerical 'points' variable
df[' status '] = pd. cut (df[' points '],
bins=[ 0,15,25 ,float(' Inf ') ] ,
labels=[' Bad ', ' OK ', ' Good '])
#view updated DataFrame
print (df)
team points status
0 To 12 Bad
1 B 15 Bad
2 C 19 OK
3 D 22 OK
4 E 24 OK
5 F 25 OK
6 G 26 Good
7:30 a.m. Good
cut() လုပ်ဆောင်ချက်ကို အသုံးပြု၍ အောက်ပါတန်ဖိုးများကို ယူဆောင်သည့် အခြေအနေ ဟုခေါ်သော အမျိုးအစားခွဲကွဲပြားသည့် ကိန်းရှင်အသစ်ကို ဖန်တီးခဲ့သည်။
- အမှတ်များကော်လံရှိတန်ဖိုးသည် 15 အောက် သို့မဟုတ် ညီမျှပါက ‘ မကောင်း ‘။
- သို့မဟုတ်ပါက၊ အမှတ်များကော်လံရှိတန်ဖိုးသည် 25 ထက်နည်းပါက ‘ အိုကေ ‘။
- မဟုတ်ရင် “ ကောင်းတယ် ”။
cut() လုပ်ဆောင်ချက်ကို အသုံးပြုသည့်အခါ အညွှန်း အရေအတွက်သည် bins အရေအတွက်ထက် နည်းနေရမည်ကို သတိပြုပါ ။
ကျွန်ုပ်တို့၏ဥပမာတွင်၊ ကျွန်ုပ်တို့သည် အကွက် များ၏အစွန်းများကိုသတ်မှတ်ရန် အကွက်များအတွက်တန်ဖိုးလေးခုကိုအသုံးပြုပြီး အမျိုးအစားခွဲကွဲပြားသည့်ကိန်းရှင်အတွက်အသုံးပြုရမည့်အညွှန်းများကိုသတ်မှတ်ရန် အညွှန်း များအတွက်အညွှန်းများအတွက်တန်ဖိုးသုံးခုရှိသည်။
ထပ်လောင်းအရင်းအမြစ်များ
အောက်ဖော်ပြပါ သင်ခန်းစာများသည် အခြားဘုံပန်ဒါတာဝန်များကို မည်သို့လုပ်ဆောင်ရမည်ကို ရှင်းပြသည်-
Pandas တွင် dummy variable များကိုဖန်တီးနည်း
Pandas တွင် categorical variable ကို ဂဏန်းအဖြစ် မည်သို့ပြောင်းရမည်နည်း။
Pandas တွင် boolean တန်ဖိုးများကို ကိန်းပြည့်တန်ဖိုးများ မည်သို့ပြောင်းလဲမည်နည်း။