လမ်းညွှန်ချက်အပြည့်အစုံ- r ဖြင့် ဒေတာများကို အုပ်စုဖွဲ့ပြီး အကျဉ်းချုပ်နည်း
ဒေတာကို ခွဲခြမ်းစိတ်ဖြာသောအခါတွင် သင်လုပ်ဆောင်ရမည့် အသုံးအများဆုံး အလုပ်နှစ်ခုမှာ အုပ်စုဖွဲ့ခြင်းနှင့် ဒေတာကို အကျဉ်းချုပ်ခြင်း ဖြစ်သည်။
ကံကောင်းထောက်မစွာ၊ R ရှိ dplyr ပက်ကေ့ချ်သည် သင့်အား ဒေတာများကို လျင်မြန်စွာ အုပ်စုဖွဲ့ပြီး အကျဉ်းချုံ့နိုင်စေပါသည်။
ဤသင်ခန်းစာသည် dplyr နှင့်စတင်ရန် အမြန်လမ်းညွှန်တစ်ခုပေးသည်။
dplyr ပက်ကေ့ဂျ်ကို ထည့်သွင်းပြီး တင်ပါ။
သင်သည် dplyr ပက်ကေ့ဂျ်ရှိ လုပ်ဆောင်ချက်များကို အသုံးမပြုမီ၊ သင်သည် ပက်ကေ့ဂျ်ကို ဦးစွာ စတင်ရမည်-
#install dplyr (if not already installed)
install.packages(' dplyr ')
#load dplyr
library(dplyr)
ထို့နောက်၊ mtcars ဟုခေါ်သော built-in R ဒေတာအစုံကို အသုံးပြု၍ အုပ်စုဖွဲ့ကာ ဒေတာကို အကျဉ်းချုံ့ရန် dplyr ၏လုပ်ဆောင်ချက်များကို အသုံးပြုခြင်း၏ ဥပမာများစွာကို ဥပမာပြပါမည်။
#obtain rows and columns of mtcars dim(mtcars) [1] 32 11 #view first six rows of mtcars head(mtcars) mpg cyl disp hp drat wt qsec vs am gear carb Mazda RX4 21.0 6 160 110 3.90 2.620 16.46 0 1 4 4 Mazda RX4 Wag 21.0 6 160 110 3.90 2.875 17.02 0 1 4 4 Datsun 710 22.8 4 108 93 3.85 2.320 18.61 1 1 4 1 Hornet 4 Drive 21.4 6 258 110 3.08 3.215 19.44 1 0 3 1 Hornet Sportabout 18.7 8 360 175 3.15 3.440 17.02 0 0 3 2 Valiant 18.1 6 225 105 2.76 3,460 20.22 1 0 3 1
ဒေတာများကို အုပ်စုဖွဲ့ပြီး အကျဉ်းချုံ့ရန် ကျွန်ုပ်တို့အသုံးပြုမည့် အခြေခံ syntax မှာ-
data %>% group_by (col_name) %>% summarize (summary_name = summary_function)
မှတ်ချက်- summary() နှင့် summarise() လုပ်ဆောင်ချက်များသည် တူညီပါသည်။
ဥပမာ 1- အုပ်စုအလိုက် ပျမ်းမျှနှင့် အလယ်တန်းကို ရှာပါ။
အောက်ဖော်ပြပါ ကုဒ်သည် ပျမ်းမျှနှင့် အလယ်အလတ် အပါအဝင် အုပ်စုအလိုက် ဗဟိုသဘောထားကို တိုင်းတာနည်းကို တွက်ချက်ပြသည်-
#find mean mpg by cylinder mtcars %>% group_by (cyl) %>% summarize (mean_mpg = mean(mpg, na.rm = TRUE )) # A tibble: 3 x 2 cyl mean_mpg 1 4 26.7 2 6 19.7 3 8 15.1 #find median mpg by cylinder mtcars %>% group_by (cyl) %>% summarize (median_mpg = median(mpg, na.rm = TRUE )) # A tibble: 3 x 2 cyl median_mpg 1 4 26 2 6 19.7 3 8 15.2
ဥပမာ 2- အုပ်စုအလိုက် ပျံ့နှံ့မှုအတိုင်းအတာကို ရှာဖွေခြင်း။
အောက်ဖော်ပြပါ ကုဒ်သည် စံသွေဖည်မှု၊ ကွာတားအကွာအဝေး နှင့် အကြွင်းမဲ့ အလယ်အလတ်သွေဖည်မှု အပါအဝင် အုပ်စုအလိုက် ပြန့်ကျဲမှု အတိုင်းအတာများကို တွက်ချက်နည်းကို ပြသသည်-
#find sd, IQR, and mad by cylinder mtcars %>% group_by (cyl) %>% summarize (sd_mpg = sd(mpg, na.rm = TRUE ), iqr_mpg = IQR(mpg, na.rm = TRUE ), mad_mpg = mad(mpg, na.rm = TRUE )) # A tibble: 3 x 4 cyl sd_mpg iqr_mpg mad_mpg 1 4 4.51 7.60 6.52 2 6 1.45 2.35 1.93 3 8 2.56 1.85 1.56
ဥပမာ 3- အုပ်စုအလိုက် နံပါတ်ကို ရှာပါ။
အောက်ပါကုဒ်သည် R တွင် အုပ်စုအလိုက် နံပါတ်နှင့် သီးသန့်နံပါတ်ကို ရှာဖွေနည်းကို ပြသသည်-
#find row count and unique row count by cylinder mtcars %>% group_by (cyl) %>% summarize (count_mpg = n(), u_count_mpg = n_distinct(mpg)) # A tibble: 3 x 3 cyl count_mpg u_count_mpg 1 4 11 9 2 6 7 6 3 8 14 12
ဥပမာ 4- အုပ်စုအလိုက် ရာခိုင်နှုန်းကို ရှာပါ။
အောက်ပါကုဒ်သည် ဆလင်ဒါအုပ်စုအလိုက် mpg တန်ဖိုးများ၏ 90th ရာခိုင်နှုန်းကို မည်သို့ရှာဖွေရမည်ကို ပြသသည်-
#find 90th percentile of mpg for each cylinder group mtcars %>% group_by (cyl) %>% summarize (quant90 = quantile(mpg, probs = .9)) # A tibble: 3 x 2 cyl quant90 1 4 32.4 2 6 21.2 3 8 18.3
ထပ်လောင်းအရင်းအမြစ်များ
dplyr ပက်ကေ့ဂျ် စာရွက်စာတမ်းအပြည့်အစုံအပြင် အထောက်အကူဖြစ်စေမည့် စိတ်ကူးပုံဖော်ခြင်း ဆော့ဖ်ဝဲစာရွက်များကို ဤနေရာတွင် တွေ့နိုင်ပါသည်။
group_by() နှင့် summary() တို့ ဖြင့် သင်အသုံးပြုနိုင်သည့် အခြားအသုံးဝင်သောလုပ်ဆောင်ချက်များသည် ဒေတာဘောင်၏အတန်းများကို စစ်ထုတ်ပြီး အချို့သောအစီအစဥ်များတွင် ၎င်းတို့ကိုစီစဉ်ရန် လုပ်ဆောင်ချက်များပါဝင်သည်။