လမ်းညွှန်ချက်အပြည့်အစုံ- r ဖြင့် ဒေတာများကို အုပ်စုဖွဲ့ပြီး အကျဉ်းချုပ်နည်း

အားဖြင့် Benjamin Anderson ဇူလိုင် 28, 2023 လမ်းညွှန် 0 မှတ်ချက်များ

ဒေတာကို ခွဲခြမ်းစိတ်ဖြာသောအခါတွင် သင်လုပ်ဆောင်ရမည့် အသုံးအများဆုံး အလုပ်နှစ်ခုမှာ အုပ်စုဖွဲ့ခြင်းနှင့် ဒေတာကို အကျဉ်းချုပ်ခြင်း ဖြစ်သည်။

ကံကောင်းထောက်မစွာ၊ R ရှိ dplyr ပက်ကေ့ချ်သည် သင့်အား ဒေတာများကို လျင်မြန်စွာ အုပ်စုဖွဲ့ပြီး အကျဉ်းချုံ့နိုင်စေပါသည်။

ဤသင်ခန်းစာသည် dplyr နှင့်စတင်ရန် အမြန်လမ်းညွှန်တစ်ခုပေးသည်။

dplyr ပက်ကေ့ဂျ်ကို ထည့်သွင်းပြီး တင်ပါ။

သင်သည် dplyr ပက်ကေ့ဂျ်ရှိ လုပ်ဆောင်ချက်များကို အသုံးမပြုမီ၊ သင်သည် ပက်ကေ့ဂျ်ကို ဦးစွာ စတင်ရမည်-

 #install dplyr (if not already installed)
install.packages(' dplyr ')

#load dplyr 
library(dplyr)

ထို့နောက်၊ mtcars ဟုခေါ်သော built-in R ဒေတာအစုံကို အသုံးပြု၍ အုပ်စုဖွဲ့ကာ ဒေတာကို အကျဉ်းချုံ့ရန် dplyr ၏လုပ်ဆောင်ချက်များကို အသုံးပြုခြင်း၏ ဥပမာများစွာကို ဥပမာပြပါမည်။

 #obtain rows and columns of mtcars
dim(mtcars)

[1] 32 11

#view first six rows of mtcars
head(mtcars)

                   mpg cyl disp hp drat wt qsec vs am gear carb
Mazda RX4 21.0 6 160 110 3.90 2.620 16.46 0 1 4 4
Mazda RX4 Wag 21.0 6 160 110 3.90 2.875 17.02 0 1 4 4
Datsun 710 22.8 4 108 93 3.85 2.320 18.61 1 1 4 1
Hornet 4 Drive 21.4 6 258 110 3.08 3.215 19.44 1 0 3 1
Hornet Sportabout 18.7 8 360 175 3.15 3.440 17.02 0 0 3 2
Valiant 18.1 6 225 105 2.76 3,460 20.22 1 0 3 1

ဒေတာများကို အုပ်စုဖွဲ့ပြီး အကျဉ်းချုံ့ရန် ကျွန်ုပ်တို့အသုံးပြုမည့် အခြေခံ syntax မှာ-

 data %>%
  group_by (col_name) %>%
  summarize (summary_name = summary_function)

မှတ်ချက်- summary() နှင့် summarise() လုပ်ဆောင်ချက်များသည် တူညီပါသည်။

ဥပမာ 1- အုပ်စုအလိုက် ပျမ်းမျှနှင့် အလယ်တန်းကို ရှာပါ။

အောက်ဖော်ပြပါ ကုဒ်သည် ပျမ်းမျှနှင့် အလယ်အလတ် အပါအဝင် အုပ်စုအလိုက် ဗဟိုသဘောထားကို တိုင်းတာနည်းကို တွက်ချက်ပြသည်-

 #find mean mpg by cylinder
mtcars %>%
  group_by (cyl) %>%
  summarize (mean_mpg = mean(mpg, na.rm = TRUE ))

# A tibble: 3 x 2
    cyl mean_mpg
      
1 4 26.7
2 6 19.7
3 8 15.1

#find median mpg by cylinder
mtcars %>%
  group_by (cyl) %>%
  summarize (median_mpg = median(mpg, na.rm = TRUE ))

# A tibble: 3 x 2
    cyl median_mpg
        
1 4 26  
2 6 19.7
3 8 15.2

ဥပမာ 2- အုပ်စုအလိုက် ပျံ့နှံ့မှုအတိုင်းအတာကို ရှာဖွေခြင်း။

အောက်ဖော်ပြပါ ကုဒ်သည် စံသွေဖည်မှု၊ ကွာတားအကွာအဝေး နှင့် အကြွင်းမဲ့ အလယ်အလတ်သွေဖည်မှု အပါအဝင် အုပ်စုအလိုက် ပြန့်ကျဲမှု အတိုင်းအတာများကို တွက်ချက်နည်းကို ပြသသည်-

 #find sd, IQR, and mad by cylinder
mtcars %>%
group_by (cyl) %>%
summarize (sd_mpg = sd(mpg, na.rm = TRUE ),
            iqr_mpg = IQR(mpg, na.rm = TRUE ),
            mad_mpg = mad(mpg, na.rm = TRUE ))

# A tibble: 3 x 4
    cyl sd_mpg iqr_mpg mad_mpg
          
1 4 4.51 7.60 6.52
2 6 1.45 2.35 1.93
3 8 2.56 1.85 1.56

ဥပမာ 3- အုပ်စုအလိုက် နံပါတ်ကို ရှာပါ။

အောက်ပါကုဒ်သည် R တွင် အုပ်စုအလိုက် နံပါတ်နှင့် သီးသန့်နံပါတ်ကို ရှာဖွေနည်းကို ပြသသည်-

 #find row count and unique row count by cylinder
mtcars %>%
group_by (cyl) %>%
summarize (count_mpg = n(),
            u_count_mpg = n_distinct(mpg))

# A tibble: 3 x 3
    cyl count_mpg u_count_mpg
              
1 4 11 9
2 6 7 6
3 8 14 12

ဥပမာ 4- အုပ်စုအလိုက် ရာခိုင်နှုန်းကို ရှာပါ။

အောက်ပါကုဒ်သည် ဆလင်ဒါအုပ်စုအလိုက် mpg တန်ဖိုးများ၏ 90th ရာခိုင်နှုန်းကို မည်သို့ရှာဖွေရမည်ကို ပြသသည်-

 #find 90th percentile of mpg for each cylinder group
mtcars %>%
group_by (cyl) %>%
summarize (quant90 = quantile(mpg, probs = .9))

# A tibble: 3 x 2
    cyl quant90
     
1 4 32.4
2 6 21.2
3 8 18.3

ထပ်လောင်းအရင်းအမြစ်များ

dplyr ပက်ကေ့ဂျ် စာရွက်စာတမ်းအပြည့်အစုံအပြင် အထောက်အကူဖြစ်စေမည့် စိတ်ကူးပုံဖော်ခြင်း ဆော့ဖ်ဝဲစာရွက်များကို ဤနေရာတွင် တွေ့နိုင်ပါသည်။

group_by() နှင့် summary() တို့ ဖြင့် သင်အသုံးပြုနိုင်သည့် အခြားအသုံးဝင်သောလုပ်ဆောင်ချက်များသည် ဒေတာဘောင်၏အတန်းများကို စစ်ထုတ်ပြီး အချို့သောအစီအစဥ်များတွင် ၎င်းတို့ကိုစီစဉ်ရန် လုပ်ဆောင်ချက်များပါဝင်သည်။

စာရေးသူအကြောင်း

Benjamin Anderson

မင်္ဂလာပါ၊ ကျွန်ုပ်သည် အငြိမ်းစား စာရင်းအင်း ပါမောက္ခ ဘင်ဂျမင်ဖြစ်ပြီး သီးသန့် Statorials ဆရာအဖြစ် လှည့်ပတ်ပါသည်။ စာရင်းဇယားနယ်ပယ်တွင် ကျယ်ပြန့်သောအတွေ့အကြုံနှင့် ကျွမ်းကျင်မှုနှင့်အတူ၊ Statorials မှတစ်ဆင့် ကျောင်းသားများကို ခွန်အားဖြစ်စေရန်အတွက် ကျွန်ုပ်၏အသိပညာကို မျှဝေလိုပါသည်။ ပိုသိတယ်။