R တွင် သရုပ်ဖော်ကိန်းဂဏန်းများကို တွက်ချက်နည်း (နမူနာဖြင့်)


Descriptive Statistics များသည် ဒေတာအစုတစ်စုကို ဖော်ပြသော တန်ဖိုးများဖြစ်သည်။

၎င်းတို့သည် ဒေတာအစုံ၏ အလယ်ဗဟို နေရာတွင် ရှိနေသည့်အပြင် ဒေတာအစုံတွင် တန်ဖိုးများ ဖြန့်ဖြူးမှုကို နားလည်ရန် ကူညီပေးသည်။

R တွင် သရုပ်ဖော်ကိန်းဂဏန်းများကို တွက်ချက်ရန် အသုံးပြုနိုင်သည့် လုပ်ဆောင်ချက်များ နှစ်ခုရှိသည်။

နည်းလမ်း 1- summary() လုပ်ဆောင်ချက်ကို အသုံးပြုပါ။

 summary(my_data)

summary() function သည် R ရှိ ဒေတာဘောင်ရှိ variable တစ်ခုစီအတွက် အောက်ပါတန်ဖိုးများကို တွက်ချက်သည်-

  • အနိမ့်ဆုံး
  • 1st quartile
  • မီဒီယံ
  • ဆိုလိုတာ
  • 3rd quartile
  • အများဆုံး

နည်းလမ်း 2- sapply() လုပ်ဆောင်ချက်ကို အသုံးပြုပါ။

 sapply(my_data, sd, na. rm = TRUE )

ဒေတာဘောင်ရှိ ကိန်းရှင်တစ်ခုစီအတွက် summary() လုပ်ဆောင်ချက်ဖြင့် တွက်ချက်ထားသည့် အခြားဖော်ပြချက်ကိန်းဂဏန်းများကို တွက်ချက်ရန်အတွက် sapply() လုပ်ဆောင်ချက်ကို အသုံးပြုနိုင်သည်။

ဥပမာအားဖြင့်၊ အထက်ဖော်ပြပါ sapply() လုပ်ဆောင်ချက်သည် ဒေတာဘောင်ရှိ ကိန်းရှင်တစ်ခုစီ၏ စံသွေဖည်မှုကို တွက်ချက်သည်။

အောက်ပါဥပမာသည် R ရှိ ဒေတာဘောင်ရှိ ကိန်းရှင်များအတွက် ဖော်ပြချက်ကိန်းဂဏန်းများကို တွက်ချက်ရန် ဤလုပ်ဆောင်ချက်နှစ်ခုကို အသုံးပြုနည်းကို ပြသထားသည်။

ဥပမာ- R တွင် သရုပ်ဖော်ကိန်းဂဏန်းများကို တွက်ချက်ခြင်း။

R တွင် variable သုံးခုပါ ၀ င်သောအောက်ပါဒေတာဘောင်ရှိသည်ဆိုပါစို့။

 #create data frame
df <- data. frame (x=c(1, 4, 4, 5, 6, 7, 10, 12),
                 y=c(2, 2, 3, 3, 4, 5, 11, 11),
                 z=c(8, 9, 9, 9, 10, 13, 15, 17))

#view data frame
df

   X Y Z
1 1 2 8
2 4 2 9
3 4 3 9
4 5 3 9
5 6 4 10
6 7 5 13
7 10 11 15
8 12 11 17

ကိန်းရှင်တစ်ခုစီအတွက် အမျိုးမျိုးသော ဖော်ပြချက်ကိန်းဂဏန်းများကို တွက်ချက်ရန် summary() လုပ်ဆောင်ချက်ကို ကျွန်ုပ်တို့ အသုံးပြုနိုင်ပါသည်။

 #calculate descriptive statistics for each variable
summary(df)

       xyz Min. : 1,000 Min. : 2,000 Min. : 8.00  
 1st Qu.: 4,000 1st Qu.: 2,750 1st Qu.: 9.00  
 Median: 5,500 Median: 3,500 Median: 9.50  
 Mean: 6.125 Mean: 5.125 Mean: 11.25  
 3rd Qu.: 7,750 3rd Qu.: 6,500 3rd Qu.: 13.50  
 Max. :12,000 Max. :11,000 Max. :17.00

ဒေတာဘောင်ရှိ သတ်မှတ်ထားသော ကိန်းရှင်များအတွက် ဖော်ပြချက်ကိန်းဂဏန်းများကိုသာ တွက်ချက်ရန် ကွင်းစဥ်များကို အသုံးပြုနိုင်သည်။

 #calculate descriptive statistics for 'x' and 'z' only
summary(df[, c(' x ', ' z ')])

       xz Min. : 1,000 Min. : 8.00  
 1st Qu.: 4.000 1st Qu.: 9.00  
 Median: 5.500 Median: 9.50  
 Mean: 6.125 Mean: 11.25  
 3rd Qu.: 7.750 3rd Qu.: 13.50  
 Max. :12,000 Max. :17.00 

ကိန်းရှင်တစ်ခုစီအတွက် သတ်သတ်မှတ်မှတ်ဖော်ပြချက်ကိန်းဂဏန်းများကို တွက်ချက်ရန် sapply() လုပ်ဆောင်ချက်ကိုလည်း ကျွန်ုပ်တို့အသုံးပြုနိုင်ပါသည်။

ဥပမာအားဖြင့်၊ အောက်ပါကုဒ်သည် ကိန်းရှင်တစ်ခုစီ၏ စံသွေဖည်မှုကို တွက်ချက်နည်းကို ပြသသည်-

 #calculate standard deviation for each variable
sapply(df, sd, na. rm = TRUE )

       X Y Z
3.522884 3.758324 3.327376

သရုပ်ဖော်ကိန်းဂဏန်းများကို တွက်ချက်ရန် sapply() တွင် function() ကို အသုံးပြုနိုင်သည်။

ဥပမာအားဖြင့်၊ အောက်ပါကုဒ်သည် ကိန်းရှင်တစ်ခုစီအတွက် အပိုင်းအခြားကို တွက်ချက်နည်းကို ပြသသည်-

 #calculate range for each variable
sapply(df, function(df) max(df, na. rm = TRUE )-min(df, na. rm = TRUE ))

 X Y Z
11 9 9

နောက်ဆုံးတွင်၊ ကျွန်ုပ်တို့သည် သရုပ်ဖော်ကိန်းဂဏန်းများကို တွက်ချက်ပြီး sapply() လုပ်ဆောင်ချက်ဖြင့် ဤလုပ်ဆောင်ချက်ကို အသုံးပြုနိုင်သည်။

ဥပမာအားဖြင့်၊ အောက်ပါကုဒ်သည် ဒေတာဘောင်ရှိ ကိန်းရှင်တစ်ခုစီ၏ မုဒ်ကို တွက်ချက်နည်းကို ပြသသည်-

 #define function that calculates mode
find_mode <- function (x) {
  u <- unique(x)
  tab <- tabulate(match(x, u))
  u[tab == max(tab)]
}

#calculate mode for each variable
sapply(df, find_mode)

$x
[1] 4

$y
[1] 2 3 11

$z
[1] 9

ရလဒ်မှ ကျွန်ုပ်တို့ မြင်နိုင်သည်-

  • variable x ၏မုဒ်မှာ 4 ဖြစ်သည်။
  • y variable ၏မုဒ်မှာ 23 နှင့် 11 ဖြစ်သည် (ဤတန်ဖိုးများတစ်ခုစီသည် မကြာခဏဆိုသလိုပေါ်နေသောကြောင့်)
  • variable z ၏မုဒ်မှာ 9 ဖြစ်သည်။

summary() နှင့် sapply() လုပ်ဆောင်ချက်များကို အသုံးပြု၍ data frame တစ်ခုစီရှိ variable တစ်ခုစီအတွက် ကျွန်ုပ်တို့လိုချင်သည့် ဖော်ပြချက်ကိန်းဂဏန်းများကို တွက်ချက်နိုင်ပါသည်။

ထပ်လောင်းအရင်းအမြစ်များ

အောက်ဖော်ပြပါ သင်ခန်းစာများသည် R တွင် အခြားဘုံအလုပ်များကို မည်သို့လုပ်ဆောင်ရမည်ကို ရှင်းပြသည်-

R တွင် အနှစ်ချုပ်ဇယားများ ဖန်တီးနည်း
R တွင် interquartile အကွာအဝေးကိုဘယ်လိုရှာရမလဲ
R တွင် outliers ကိုမည်သို့ဖယ်ရှားရမည်နည်း

မှတ်ချက်တစ်ခုထည့်ပါ။

သင့် email လိပ်စာကို ဖော်ပြမည် မဟုတ်ပါ။ လိုအပ်သော ကွက်လပ်များကို * ဖြင့်မှတ်သားထားသည်