आर में नमूना और जनसंख्या भिन्नता की गणना कैसे करें
वेरिएंस यह मापने का एक तरीका है कि माध्य के आसपास डेटा मान कितनी अच्छी तरह वितरित किए जाते हैं।
जनसंख्या का विचरण ज्ञात करने का सूत्र है:
σ 2 = Σ (x i – μ) 2 / N
जहां μ जनसंख्या माध्य है, x i जनसंख्या का i वां तत्व है, N जनसंख्या का आकार है, और Σ केवल एक फैंसी प्रतीक है जिसका अर्थ है “योग”।
किसी नमूने का प्रसरण ज्ञात करने का सूत्र है:
s 2 = Σ (x i – x ) 2 / (n-1)
जहां x नमूना माध्य है, x i i वें नमूना तत्व है और n नमूना आकार है।
उदाहरण: आर में नमूना और जनसंख्या भिन्नता की गणना करें
मान लीजिए कि हमारे पास R में निम्नलिखित डेटासेट हैं:
#define dataset
data <- c(2, 4, 4, 7, 8, 12, 14, 15, 19, 22)
हम R में var() फ़ंक्शन का उपयोग करके नमूना विचरण की गणना कर सकते हैं:
#calculate sample variance
var(data)
[1] 46.01111
और हम नमूना भिन्नता को (n-1)/n से इस प्रकार गुणा करके जनसंख्या भिन्नता की गणना कर सकते हैं:
#determine length of data
n <- length (data)
#calculate population variance
var(data) * (n-1)/n
[1] 41.41
ध्यान दें कि जनसंख्या भिन्नता हमेशा नमूना भिन्नता से कम होगी।
व्यवहार में, हम आमतौर पर डेटा के सेट के लिए नमूना भिन्नताओं की गणना करते हैं, क्योंकि संपूर्ण जनसंख्या के लिए डेटा एकत्र करना असामान्य है।
उदाहरण: कई स्तंभों के नमूने के विचरण की गणना करें
मान लीजिए कि हमारे पास R में निम्नलिखित डेटा फ़्रेम है:
#create data frame
data <- data.frame(a=c(1, 3, 4, 4, 6, 7, 8, 12),
b=c(2, 4, 4, 5, 5, 6, 7, 16),
c=c(6, 6, 7, 8, 8, 9, 9, 12))
#view data frame
data
ABC
1 1 2 6
2 3 4 6
3 4 4 7
4 4 5 8
5 6 5 8
6 7 6 9
7 8 7 9
8 12 16 12
हम डेटा फ्रेम में प्रत्येक कॉलम के नमूना भिन्नता की गणना करने के लिए sapply() फ़ंक्शन का उपयोग कर सकते हैं:
#find sample variance of each column
sapply(data, var)
ABC
11.696429 18.125000 3.839286
और हम प्रत्येक कॉलम के नमूना मानक विचलन की गणना करने के लिए निम्नलिखित कोड का उपयोग कर सकते हैं, जो कि केवल नमूना विचरण का वर्गमूल है:
#find sample standard deviation of each column
sapply(data, sd)
ABC
3.420004 4.257347 1.959410
आप यहां अधिक आर ट्यूटोरियल पा सकते हैं।