كيفية حساب العينة والتباين السكاني في r
التباين هو وسيلة لقياس مدى توزيع قيم البيانات حول المتوسط.
صيغة إيجاد التباين للسكان هي:
σ 2 = Σ (x i – μ) 2 / N
حيث μ هو متوسط عدد السكان، وx i هو العنصر الأول من السكان، وN هو حجم السكان، وΣ مجرد رمز خيالي يعني “المجموع”.
صيغة إيجاد تباين العينة هي:
ق 2 = Σ (س ط – س ) 2 / (ن-1)
حيث x هو متوسط العينة، وx i هو عنصر العينة i وn هو حجم العينة.
مثال: حساب تباين العينة والسكان في R
لنفترض أن لدينا مجموعة البيانات التالية في R:
#define dataset
data <- c(2, 4, 4, 7, 8, 12, 14, 15, 19, 22)
يمكننا حساب تباين العينة باستخدام الدالة var() في R:
#calculate sample variance
var(data)
[1] 46.01111
ويمكننا حساب التباين السكاني ببساطة عن طريق ضرب تباين العينة بـ (n-1)/n كما يلي:
#determine length of data
n <- length (data)
#calculate population variance
var(data) * (n-1)/n
[1] 41.41
لاحظ أن تباين المجتمع سيكون دائمًا أقل من تباين العينة.
من الناحية العملية، نقوم عادةً بحساب تباينات العينة لمجموعات من البيانات، لأنه من غير المعتاد جمع بيانات لمجموعة سكانية بأكملها.
مثال: حساب تباين عينة من عدة أعمدة
لنفترض أن لدينا إطار البيانات التالي في R:
#create data frame
data <- data.frame(a=c(1, 3, 4, 4, 6, 7, 8, 12),
b=c(2, 4, 4, 5, 5, 6, 7, 16),
c=c(6, 6, 7, 8, 8, 9, 9, 12))
#view data frame
data
ABC
1 1 2 6
2 3 4 6
3 4 4 7
4 4 5 8
5 6 5 8
6 7 6 9
7 8 7 9
8 12 16 12
يمكننا استخدام الدالة sapply() لحساب تباين العينة لكل عمود في إطار البيانات:
#find sample variance of each column
sapply(data, var)
ABC
11.696429 18.125000 3.839286
ويمكننا استخدام الكود التالي لحساب نموذج الانحراف المعياري لكل عمود، وهو ببساطة الجذر التربيعي لتباين العينة:
#find sample standard deviation of each column
sapply(data, sd)
ABC
3.420004 4.257347 1.959410
يمكنك العثور على المزيد من دروس R هنا .