Python တွင် data grouping လုပ်နည်း- ဥပမာများဖြင့်


Pandas DataFrame တွင် ဒေတာအုပ်စုဖွဲ့ခြင်းကို လုပ်ဆောင်ရန် အောက်ပါအခြေခံ syntax ကို သင်အသုံးပြုနိုင်သည်-

 import pandas as pd

#perform binning with 3 bins
df[' new_bin '] = pd. qcut (df[' variable_name '], q= 3 )

အောက်ဖော်ပြပါနမူနာများသည် အောက်ပါ pandas DataFrame နှင့် လက်တွေ့တွင် ဤ syntax ကိုမည်သို့အသုံးပြုရမည်ကို ပြသသည် ။

 import pandas as pd

#createDataFrame
df = pd. DataFrame ({' points ': [4, 4, 7, 8, 12, 13, 15, 18, 22, 23, 23, 25],
                   ' assists ': [2, 5, 4, 7, 7, 8, 5, 4, 5, 11, 13, 8],
                   ' rebounds ': [7, 7, 4, 6, 3, 8, 9, 9, 12, 11, 8, 9]})

#view DataFrame
print (df)

    points assists rebounds
0 4 2 7
1 4 5 7
2 7 4 4
3 8 7 6
4 12 7 3
5 13 8 8
6 15 5 9
7 18 4 9
8 22 5 12
9 23 11 11
10 23 13 8
11 25 8 9

ဥပမာ 1- မာစတာဒေတာအုပ်စုဖွဲ့ခြင်းကို လုပ်ဆောင်ပါ။

အောက်ဖော်ပြပါ ကုဒ်သည် သီးခြားအမှတ်အသားများဖြင့် qcut() လုပ်ဆောင်ချက်ကို အသုံးပြု၍ အချက်များကို ပြောင်းလဲနိုင်သော ကိန်းရှင်တွင် ဒေတာအုပ်စုဖွဲ့နည်းကို ပြသသည်-

 #perform data binning on variable points
df[' points_bin '] = pd. qcut (df[' points '], q= 3 )

#view updated DataFrame
print (df)

    points assists rebounds points_bin
0 4 2 7 (3,999, 10,667]
1 4 5 7 (3,999, 10,667]
2 7 4 4 (3,999, 10,667]
3 8 7 6 (3,999, 10,667]
4 12 7 3 (10,667, 19,333]
5 13 8 8 (10,667, 19,333]
6 15 5 9 (10,667, 19,333]
7 18 4 9 (10,667, 19,333]
8 22 5 12 (19.333, 25.0]
9 23 11 11 (19.333, 25.0]
10 23 13 8 (19.333, 25.0]
11 25 8 9 (19.333, 25.0]

ဒေတာဘောင်ရှိ အတန်းတစ်ခုစီကို အမှတ်ကော်လံ၏တန်ဖိုးပေါ်အခြေခံ၍ အုပ်စုသုံးစုအနက်တစ်ခုသို့ ထားရှိထားကြောင်း သတိပြုပါ။

ဘင်တစ်ခုစီတွင် အတန်းအရေအတွက်မည်မျှ ထားရှိသည်ကို ရှာဖွေရန် value_counts() လုပ်ဆောင်ချက်ကို ကျွန်ုပ်တို့ အသုံးပြုနိုင်ပါသည်။

 #count frequency of each bin
df[' points_bin ']. value_counts ()

(3,999, 10,667] 4
(10.667, 19.333] 4
(19.333, 25.0] 4
Name: points_bin, dtype: int64

ပုံးတစ်ခုစီတွင် မှတ်သားစရာ ၄ ခုပါရှိသည်ကို ကျွန်ုပ်တို့တွေ့မြင်နိုင်ပါသည်။

ဥပမာ 2- တိကျသောပမာဏဖြင့် ဒေတာစုဖွဲ့မှုကို လုပ်ဆောင်ပါ။

တိကျသောပမာဏများကို အသုံးပြု၍ ဒေတာစုဖွဲ့ခြင်းကိုလည်း လုပ်ဆောင်နိုင်သည်-

 #perform data binning on variable points with specific quantiles
df[' points_bin '] = pd. qcut (df[' points '], q=[0, .2, .4, .6, .8, 1])

#view updated DataFrame
print (df)

    points assists rebounds points_bin
0 4 2 7 (3.999, 7.2]
1 4 5 7 (3.999, 7.2]
2 7 4 4 (3.999, 7.2]
3 8 7 6 (7.2, 12.4]
4 12 7 3 (7.2, 12.4]
5 13 8 8 (12.4, 16.8]
6 15 5 9 (12.4, 16.8]
7 18 4 9 (16.8, 22.8]
8 22 5 12 (16.8, 22.8]
9 23 11 11 (22.8, 25.0]
10 23 13 8 (22.8, 25.0]
11 25 8 9 (22.8, 25.0]

ဥပမာ 3- အညွှန်းများဖြင့် ဒေတာအုပ်စုဖွဲ့ခြင်းကို လုပ်ဆောင်ပါ။

သီးခြားအရေအတွက်နှင့် အညွှန်းများကို အသုံးပြု၍ ဒေတာအုပ်စုဖွဲ့ခြင်းကိုလည်း လုပ်ဆောင်နိုင်သည်-

 #perform data binning on points variable with specific quantiles and labels
df[' points_bin '] = pd. qcut (df[' points '],
                           q=[0, .2, .4, .6, .8, 1],
                           labels=[' A ',' B ',' C ',' D ',' E '])

#view updated DataFrame
print (df)

    points assists rebounds points_bin
0 4 2 7 A
1 4 5 7 A
2 7 4 4 A
3 8 7 6 B
4 12 7 3 B
5 13 8 8 C
6 15 5 9 C
7 18 4 9 D
8 22 5 12 D
9 23 11 11 E
10 23 13 8 E
11 25 8 9 E

အမှတ် ကော်လံတန်ဖိုးအပေါ် အခြေခံ၍ အတန်းတစ်ခုစီကို ဘင်တစ်ခုစီ သတ်မှတ်ပေးပြီး bins များကို စာလုံးများဖြင့် တံဆိပ်တပ်ထားကြောင်း သတိပြုပါ။

ထပ်လောင်းအရင်းအမြစ်များ

အောက်ဖော်ပြပါ သင်ခန်းစာများသည် ပန်ဒါများတွင် အခြားဘုံအလုပ်များကို မည်သို့လုပ်ဆောင်ရမည်ကို ရှင်းပြသည်-

Pandas- value_counts() လုပ်ဆောင်ချက်ကို ဘယ်လိုသုံးမလဲ။
Pandas- တန်ဖိုးများစွာဖြင့် ဆုံချက်ဇယားကို ဖန်တီးနည်း
Pandas- ကော်လံတစ်ခုရှိ တိကျသောတန်ဖိုး၏ ဖြစ်ပျက်မှုများကို ရေတွက်နည်း

မှတ်ချက်တစ်ခုထည့်ပါ။

သင့် email လိပ်စာကို ဖော်ပြမည် မဟုတ်ပါ။ လိုအပ်သော ကွက်လပ်များကို * ဖြင့်မှတ်သားထားသည်