आर में यादृच्छिक नमूने कैसे चुनें: उदाहरणों के साथ
आर में एक यादृच्छिक नमूना चुनने के लिए, हम नमूना() फ़ंक्शन का उपयोग कर सकते हैं, जो निम्नलिखित सिंटैक्स का उपयोग करता है:
नमूना(x, आकार, बदलें=गलत, संभावना=शून्य)
सोना:
- x: चुनने के लिए तत्वों का एक वेक्टर।
- आकार: नमूना आकार.
- प्रतिस्थापित करें: प्रतिस्थापन के साथ नमूना लेना है या नहीं। मूल मूल्य गलत है।
- प्रोब: वेक्टर से तत्व प्राप्त करने के लिए संभाव्यता भार का वेक्टर। डिफ़ॉल्ट शून्य है.
यह ट्यूटोरियल बताता है कि वेक्टर और डेटा फ्रेम दोनों से आर में एक यादृच्छिक नमूना चुनने के लिए इस फ़ंक्शन का उपयोग कैसे करें।
उदाहरण 1: एक वेक्टर से यादृच्छिक नमूना
निम्नलिखित कोड दिखाता है कि प्रतिस्थापन के बिना वेक्टर से यादृच्छिक नमूना कैसे चुनें:
#create vector of data data <- c(1, 3, 5, 6, 7, 8, 10, 11, 12, 14) #select random sample of 5 elements without replacement sample(x=data, size=5) [1] 10 12 5 14 7
निम्नलिखित कोड दिखाता है कि प्रतिस्थापन वाले वेक्टर से यादृच्छिक नमूना कैसे चुनें:
#create vector of data data <- c(1, 3, 5, 6, 7, 8, 10, 11, 12, 14) #select random sample of 5 elements with replacement sample(x=data, size=5, replace= TRUE ) [1] 12 1 1 6 14
उदाहरण 2: डेटा के एक ब्लॉक से यादृच्छिक नमूना
निम्नलिखित कोड दिखाता है कि डेटा फ़्रेम से यादृच्छिक नमूना कैसे चुनें:
#create data frame df <- data.frame(x=c(3, 5, 6, 6, 8, 12, 14), y=c(12, 6, 4, 23, 25, 8, 9), z=c(2, 7, 8, 8, 15, 17, 29)) #view data frame df X Y Z 1 3 12 2 2 5 6 7 3 6 4 8 4 6 23 8 5 8 25 15 6 12 8 17 7 14 9 29 #select random sample of three rows from data frame rand_df <- df[ sample ( nrow (df), size= 3 ), ] #display randomly selected rows rand_df X Y Z 4 6 23 8 7 14 9 29 1 3 12 2
इस कोड के टुकड़े में क्या हो रहा है:
1. R में डेटा फ़्रेम के सबसेट का चयन करने के लिए, हम निम्नलिखित सिंटैक्स का उपयोग करते हैं: df[पंक्तियाँ, कॉलम]
2. उपरोक्त कोड में, हम डेटा फ्रेम और सभी कॉलम से 3 पंक्तियों का एक नमूना यादृच्छिक रूप से चुनते हैं।
3. अंतिम परिणाम 3 यादृच्छिक रूप से चयनित पंक्तियों के साथ डेटा फ़्रेम का एक सबसेट है।
यह ध्यान रखना महत्वपूर्ण है कि हर बार जब हम नमूना() फ़ंक्शन का उपयोग करते हैं, तो आर एक अलग नमूना का चयन करेगा क्योंकि फ़ंक्शन यादृच्छिक रूप से मान चुनता है।
कुछ विश्लेषणों के परिणामों को पुन: प्रस्तुत करने के लिए, set.seed(some number) का उपयोग करना सुनिश्चित करें ताकि नमूना() फ़ंक्शन हर बार एक ही यादृच्छिक नमूना चुन सके। उदाहरण के लिए:
#make this example reproducible set.seed(23) #create data frame df <- data.frame(x=c(3, 5, 6, 6, 8, 12, 14), y=c(12, 6, 4, 23, 25, 8, 9), z=c(2, 7, 8, 8, 15, 17, 29)) #select random sample of three rows from data frame rand_df <- df[ sample ( nrow (df), size= 3 ), ] #display randomly selected rows rand_df X Y Z 5 8 25 15 2 5 6 7 6 12 8 17
हर बार जब आप उपरोक्त कोड चलाएंगे, तो हर बार डेटा फ़्रेम की समान 3 पंक्तियाँ चुनी जाएंगी।
अतिरिक्त संसाधन
आर में स्तरीकृत नमूनाकरण (उदाहरण के साथ)
आर में व्यवस्थित नमूनाकरण (उदाहरण के साथ)
आर में क्लस्टर नमूनाकरण: उदाहरणों के साथ