R တွင် နမူနာနှင့် လူဦးရေကွဲလွဲမှုကို တွက်ချက်နည်း
Variance သည် ဆိုလိုရင်းတစ်ဝိုက်တွင် ဒေတာတန်ဖိုးများ မည်မျှ ကောင်းမွန်စွာ ဖြန့်ဝေသည်ကို တိုင်းတာသည့်နည်းလမ်းဖြစ်သည်။
လူဦးရေ ကွဲပြားမှုကို ရှာဖွေရန် ဖော်မြူလာမှာ-
σ 2 = Σ (x i – μ) 2 / N
µ သည် လူဦးရေဆိုလိုသည်၊ x i သည် လူဦးရေ၏ i th ဒြပ်စင်ဖြစ်ပြီး N သည် လူဦးရေအရွယ်အစားဖြစ်ပြီး Σ သည် “ ပေါင်း” ဟူသော ဖန်စီသင်္ကေတတစ်ခုဖြစ်သည်။
နမူနာ တစ်ခု၏ ကွဲလွဲမှုကို ရှာဖွေရန် ဖော်မြူလာမှာ-
s 2 = Σ (x i – x ) 2 / (n-1)
x သည် နမူနာဆိုလိုရာ၊ x i သည် i th နမူနာဒြပ်စင်ဖြစ်ပြီး n သည် နမူနာအရွယ်အစားဖြစ်သည်။
ဥပမာ- R တွင် နမူနာနှင့် လူဦးရေကွဲလွဲမှုကို တွက်ချက်ပါ။
R တွင် အောက်ပါ dataset ရှိသည်ဆိုပါစို့။
#define dataset
data <- c(2, 4, 4, 7, 8, 12, 14, 15, 19, 22)
R တွင် var() လုပ်ဆောင်ချက်ကို အသုံးပြု၍ နမူနာကွဲလွဲမှုကို တွက်ချက်နိုင်သည်။
#calculate sample variance
var(data)
[1] 46.01111
နမူနာကွဲလွဲမှုကို (n-1)/n ဖြင့် မြှောက်ခြင်းဖြင့် လူဦးရေကွဲလွဲမှုကို အောက်ပါအတိုင်း တွက်ချက်နိုင်သည်-
#determine length of data
n <- length (data)
#calculate population variance
var(data) * (n-1)/n
[1] 41.41
လူဦးရေကွဲလွဲမှုသည် နမူနာကွဲလွဲမှုထက် အမြဲလျော့နည်းနေမည်ကို သတိပြုပါ။
လက်တွေ့တွင်၊ လူဦးရေတစ်ခုလုံးအတွက် ဒေတာစုဆောင်းခြင်းသည် ပုံမှန်မဟုတ်သောကြောင့် ဒေတာအတွဲများအတွက် နမူနာကွဲလွဲမှုများကို တွက်ချက်လေ့ရှိပါသည်။
ဥပမာ- ကော်လံများစွာ၏ နမူနာတစ်ခု၏ ကွဲလွဲမှုကို တွက်ချက်ပါ။
R တွင် အောက်ပါ data frame ရှိသည်ဆိုပါစို့။
#create data frame
data <- data.frame(a=c(1, 3, 4, 4, 6, 7, 8, 12),
b=c(2, 4, 4, 5, 5, 6, 7, 16),
c=c(6, 6, 7, 8, 8, 9, 9, 12))
#view data frame
data
ABC
1 1 2 6
2 3 4 6
3 4 4 7
4 4 5 8
5 6 5 8
6 7 6 9
7 8 7 9
8 12 16 12
ဒေတာဘောင်ရှိ ကော်လံတစ်ခုစီ၏ နမူနာကွဲလွဲမှုကို တွက်ချက်ရန် sapply() လုပ်ဆောင်ချက်ကို ကျွန်ုပ်တို့ အသုံးပြုနိုင်သည်။
#find sample variance of each column
sapply(data, var)
ABC
11.696429 18.125000 3.839286
ကော်လံတစ်ခုစီ၏ နမူနာစံသွေဖည်မှုကို တွက်ချက်ရန် အောက်ပါကုဒ်ကို အသုံးပြုနိုင်ပြီး၊ နမူနာကွဲလွဲမှု၏ နှစ်ထပ်ကိန်းအရင်းဖြစ်သည့်၊
#find sample standard deviation of each column
sapply(data, sd)
ABC
3.420004 4.257347 1.959410
နောက်ထပ် R သင်ခန်းစာများကို ဤနေရာတွင် ရှာဖွေနိုင်ပါသည်။