R တွင် သရုပ်ဖော်ကိန်းဂဏန်းများကို တွက်ချက်နည်း (နမူနာဖြင့်)
Descriptive Statistics များသည် ဒေတာအစုတစ်စုကို ဖော်ပြသော တန်ဖိုးများဖြစ်သည်။
၎င်းတို့သည် ဒေတာအစုံ၏ အလယ်ဗဟို နေရာတွင် ရှိနေသည့်အပြင် ဒေတာအစုံတွင် တန်ဖိုးများ ဖြန့်ဖြူးမှုကို နားလည်ရန် ကူညီပေးသည်။
R တွင် သရုပ်ဖော်ကိန်းဂဏန်းများကို တွက်ချက်ရန် အသုံးပြုနိုင်သည့် လုပ်ဆောင်ချက်များ နှစ်ခုရှိသည်။
နည်းလမ်း 1- summary() လုပ်ဆောင်ချက်ကို အသုံးပြုပါ။
summary(my_data)
summary() function သည် R ရှိ ဒေတာဘောင်ရှိ variable တစ်ခုစီအတွက် အောက်ပါတန်ဖိုးများကို တွက်ချက်သည်-
- အနိမ့်ဆုံး
- 1st quartile
- မီဒီယံ
- ဆိုလိုတာ
- 3rd quartile
- အများဆုံး
နည်းလမ်း 2- sapply() လုပ်ဆောင်ချက်ကို အသုံးပြုပါ။
sapply(my_data, sd, na. rm = TRUE )
ဒေတာဘောင်ရှိ ကိန်းရှင်တစ်ခုစီအတွက် summary() လုပ်ဆောင်ချက်ဖြင့် တွက်ချက်ထားသည့် အခြားဖော်ပြချက်ကိန်းဂဏန်းများကို တွက်ချက်ရန်အတွက် sapply() လုပ်ဆောင်ချက်ကို အသုံးပြုနိုင်သည်။
ဥပမာအားဖြင့်၊ အထက်ဖော်ပြပါ sapply() လုပ်ဆောင်ချက်သည် ဒေတာဘောင်ရှိ ကိန်းရှင်တစ်ခုစီ၏ စံသွေဖည်မှုကို တွက်ချက်သည်။
အောက်ပါဥပမာသည် R ရှိ ဒေတာဘောင်ရှိ ကိန်းရှင်များအတွက် ဖော်ပြချက်ကိန်းဂဏန်းများကို တွက်ချက်ရန် ဤလုပ်ဆောင်ချက်နှစ်ခုကို အသုံးပြုနည်းကို ပြသထားသည်။
ဥပမာ- R တွင် သရုပ်ဖော်ကိန်းဂဏန်းများကို တွက်ချက်ခြင်း။
R တွင် variable သုံးခုပါ ၀ င်သောအောက်ပါဒေတာဘောင်ရှိသည်ဆိုပါစို့။
#create data frame df <- data. frame (x=c(1, 4, 4, 5, 6, 7, 10, 12), y=c(2, 2, 3, 3, 4, 5, 11, 11), z=c(8, 9, 9, 9, 10, 13, 15, 17)) #view data frame df X Y Z 1 1 2 8 2 4 2 9 3 4 3 9 4 5 3 9 5 6 4 10 6 7 5 13 7 10 11 15 8 12 11 17
ကိန်းရှင်တစ်ခုစီအတွက် အမျိုးမျိုးသော ဖော်ပြချက်ကိန်းဂဏန်းများကို တွက်ချက်ရန် summary() လုပ်ဆောင်ချက်ကို ကျွန်ုပ်တို့ အသုံးပြုနိုင်ပါသည်။
#calculate descriptive statistics for each variable
summary(df)
xyz Min. : 1,000 Min. : 2,000 Min. : 8.00
1st Qu.: 4,000 1st Qu.: 2,750 1st Qu.: 9.00
Median: 5,500 Median: 3,500 Median: 9.50
Mean: 6.125 Mean: 5.125 Mean: 11.25
3rd Qu.: 7,750 3rd Qu.: 6,500 3rd Qu.: 13.50
Max. :12,000 Max. :11,000 Max. :17.00
ဒေတာဘောင်ရှိ သတ်မှတ်ထားသော ကိန်းရှင်များအတွက် ဖော်ပြချက်ကိန်းဂဏန်းများကိုသာ တွက်ချက်ရန် ကွင်းစဥ်များကို အသုံးပြုနိုင်သည်။
#calculate descriptive statistics for 'x' and 'z' only summary(df[, c(' x ', ' z ')]) xz Min. : 1,000 Min. : 8.00 1st Qu.: 4.000 1st Qu.: 9.00 Median: 5.500 Median: 9.50 Mean: 6.125 Mean: 11.25 3rd Qu.: 7.750 3rd Qu.: 13.50 Max. :12,000 Max. :17.00
ကိန်းရှင်တစ်ခုစီအတွက် သတ်သတ်မှတ်မှတ်ဖော်ပြချက်ကိန်းဂဏန်းများကို တွက်ချက်ရန် sapply() လုပ်ဆောင်ချက်ကိုလည်း ကျွန်ုပ်တို့အသုံးပြုနိုင်ပါသည်။
ဥပမာအားဖြင့်၊ အောက်ပါကုဒ်သည် ကိန်းရှင်တစ်ခုစီ၏ စံသွေဖည်မှုကို တွက်ချက်နည်းကို ပြသသည်-
#calculate standard deviation for each variable sapply(df, sd, na. rm = TRUE ) X Y Z 3.522884 3.758324 3.327376
သရုပ်ဖော်ကိန်းဂဏန်းများကို တွက်ချက်ရန် sapply() တွင် function() ကို အသုံးပြုနိုင်သည်။
ဥပမာအားဖြင့်၊ အောက်ပါကုဒ်သည် ကိန်းရှင်တစ်ခုစီအတွက် အပိုင်းအခြားကို တွက်ချက်နည်းကို ပြသသည်-
#calculate range for each variable sapply(df, function(df) max(df, na. rm = TRUE )-min(df, na. rm = TRUE )) X Y Z 11 9 9
နောက်ဆုံးတွင်၊ ကျွန်ုပ်တို့သည် သရုပ်ဖော်ကိန်းဂဏန်းများကို တွက်ချက်ပြီး sapply() လုပ်ဆောင်ချက်ဖြင့် ဤလုပ်ဆောင်ချက်ကို အသုံးပြုနိုင်သည်။
ဥပမာအားဖြင့်၊ အောက်ပါကုဒ်သည် ဒေတာဘောင်ရှိ ကိန်းရှင်တစ်ခုစီ၏ မုဒ်ကို တွက်ချက်နည်းကို ပြသသည်-
#define function that calculates mode find_mode <- function (x) { u <- unique(x) tab <- tabulate(match(x, u)) u[tab == max(tab)] } #calculate mode for each variable sapply(df, find_mode) $x [1] 4 $y [1] 2 3 11 $z [1] 9
ရလဒ်မှ ကျွန်ုပ်တို့ မြင်နိုင်သည်-
- variable x ၏မုဒ်မှာ 4 ဖြစ်သည်။
- y variable ၏မုဒ်မှာ 2 ၊ 3 နှင့် 11 ဖြစ်သည် (ဤတန်ဖိုးများတစ်ခုစီသည် မကြာခဏဆိုသလိုပေါ်နေသောကြောင့်)
- variable z ၏မုဒ်မှာ 9 ဖြစ်သည်။
summary() နှင့် sapply() လုပ်ဆောင်ချက်များကို အသုံးပြု၍ data frame တစ်ခုစီရှိ variable တစ်ခုစီအတွက် ကျွန်ုပ်တို့လိုချင်သည့် ဖော်ပြချက်ကိန်းဂဏန်းများကို တွက်ချက်နိုင်ပါသည်။
ထပ်လောင်းအရင်းအမြစ်များ
အောက်ဖော်ပြပါ သင်ခန်းစာများသည် R တွင် အခြားဘုံအလုပ်များကို မည်သို့လုပ်ဆောင်ရမည်ကို ရှင်းပြသည်-
R တွင် အနှစ်ချုပ်ဇယားများ ဖန်တီးနည်း
R တွင် interquartile အကွာအဝေးကိုဘယ်လိုရှာရမလဲ
R တွင် outliers ကိုမည်သို့ဖယ်ရှားရမည်နည်း