आर में यादृच्छिक नमूने कैसे चुनें: उदाहरणों के साथ


आर में एक यादृच्छिक नमूना चुनने के लिए, हम नमूना() फ़ंक्शन का उपयोग कर सकते हैं, जो निम्नलिखित सिंटैक्स का उपयोग करता है:

नमूना(x, आकार, बदलें=गलत, संभावना=शून्य)

सोना:

  • x: चुनने के लिए तत्वों का एक वेक्टर।
  • आकार: नमूना आकार.
  • प्रतिस्थापित करें: प्रतिस्थापन के साथ नमूना लेना है या नहीं। मूल मूल्य गलत है।
  • प्रोब: वेक्टर से तत्व प्राप्त करने के लिए संभाव्यता भार का वेक्टर। डिफ़ॉल्ट शून्य है.

यह ट्यूटोरियल बताता है कि वेक्टर और डेटा फ्रेम दोनों से आर में एक यादृच्छिक नमूना चुनने के लिए इस फ़ंक्शन का उपयोग कैसे करें।

उदाहरण 1: एक वेक्टर से यादृच्छिक नमूना

निम्नलिखित कोड दिखाता है कि प्रतिस्थापन के बिना वेक्टर से यादृच्छिक नमूना कैसे चुनें:

 #create vector of data
data <- c(1, 3, 5, 6, 7, 8, 10, 11, 12, 14)

#select random sample of 5 elements without replacement
sample(x=data, size=5)

[1] 10 12 5 14 7

निम्नलिखित कोड दिखाता है कि प्रतिस्थापन वाले वेक्टर से यादृच्छिक नमूना कैसे चुनें:

 #create vector of data
data <- c(1, 3, 5, 6, 7, 8, 10, 11, 12, 14)

#select random sample of 5 elements with replacement
sample(x=data, size=5, replace= TRUE )

[1] 12 1 1 6 14

उदाहरण 2: डेटा के एक ब्लॉक से यादृच्छिक नमूना

निम्नलिखित कोड दिखाता है कि डेटा फ़्रेम से यादृच्छिक नमूना कैसे चुनें:

 #create data frame
df <- data.frame(x=c(3, 5, 6, 6, 8, 12, 14),
                 y=c(12, 6, 4, 23, 25, 8, 9),
                 z=c(2, 7, 8, 8, 15, 17, 29))

#view data frame 
df

   X Y Z
1 3 12 2
2 5 6 7
3 6 4 8
4 6 23 8
5 8 25 15
6 12 8 17
7 14 9 29

#select random sample of three rows from data frame
rand_df <- df[ sample ( nrow (df), size= 3 ), ]

#display randomly selected rows
rand_df

   X Y Z
4 6 23 8
7 14 9 29
1 3 12 2

इस कोड के टुकड़े में क्या हो रहा है:

1. R में डेटा फ़्रेम के सबसेट का चयन करने के लिए, हम निम्नलिखित सिंटैक्स का उपयोग करते हैं: df[पंक्तियाँ, कॉलम]

2. उपरोक्त कोड में, हम डेटा फ्रेम और सभी कॉलम से 3 पंक्तियों का एक नमूना यादृच्छिक रूप से चुनते हैं।

3. अंतिम परिणाम 3 यादृच्छिक रूप से चयनित पंक्तियों के साथ डेटा फ़्रेम का एक सबसेट है।

यह ध्यान रखना महत्वपूर्ण है कि हर बार जब हम नमूना() फ़ंक्शन का उपयोग करते हैं, तो आर एक अलग नमूना का चयन करेगा क्योंकि फ़ंक्शन यादृच्छिक रूप से मान चुनता है।

कुछ विश्लेषणों के परिणामों को पुन: प्रस्तुत करने के लिए, set.seed(some number) का उपयोग करना सुनिश्चित करें ताकि नमूना() फ़ंक्शन हर बार एक ही यादृच्छिक नमूना चुन सके। उदाहरण के लिए:

 #make this example reproducible
set.seed(23)

#create data frame
df <- data.frame(x=c(3, 5, 6, 6, 8, 12, 14),
                 y=c(12, 6, 4, 23, 25, 8, 9),
                 z=c(2, 7, 8, 8, 15, 17, 29))

#select random sample of three rows from data frame
rand_df <- df[ sample ( nrow (df), size= 3 ), ]

#display randomly selected rows
rand_df

   X Y Z
5 8 25 15
2 5 6 7
6 12 8 17

हर बार जब आप उपरोक्त कोड चलाएंगे, तो हर बार डेटा फ़्रेम की समान 3 पंक्तियाँ चुनी जाएंगी।

अतिरिक्त संसाधन

आर में स्तरीकृत नमूनाकरण (उदाहरण के साथ)
आर में व्यवस्थित नमूनाकरण (उदाहरण के साथ)
आर में क्लस्टर नमूनाकरण: उदाहरणों के साथ

एक टिप्पणी जोड़ने

आपका ईमेल पता प्रकाशित नहीं किया जाएगा. आवश्यक फ़ील्ड चिह्नित हैं *