पांडा: प्रतिस्थापन के साथ पंक्तियों का नमूना कैसे लें
आप प्रतिस्थापन के साथ डेटाफ़्रेम से यादृच्छिक रूप से पंक्तियों का नमूना लेने के लिए पांडा सैंपल() फ़ंक्शन में रिप्लेस=ट्रू तर्क का उपयोग कर सकते हैं:
#randomly select n rows with repeats allowed df. sample (n= 5 , replace= True )
Replace=True का उपयोग करके आप एक ही पंक्ति को नमूने में कई बार शामिल करने की अनुमति देते हैं।
निम्नलिखित उदाहरण दिखाता है कि व्यवहार में इस वाक्यविन्यास का उपयोग कैसे करें।
उदाहरण: पांडा में प्रतिस्थापन वाली रेखाओं के उदाहरण
मान लीजिए कि हमारे पास निम्नलिखित पांडा डेटाफ़्रेम है जिसमें विभिन्न बास्केटबॉल खिलाड़ियों के बारे में जानकारी है:
import pandas as pd #createDataFrame df = pd. DataFrame ({' team ': ['A', 'B', 'C', 'D', 'E', 'F', 'G', 'H'], ' points ': [18, 22, 19, 14, 14, 11, 20, 28], ' assists ': [5, 7, 7, 9, 12, 9, 9, 4], ' rebounds ': [11, 8, 10, 6, 6, 5, 9, 12]}) #view DataFrame print (df) team points assists rebounds 0 A 18 5 11 1 B 22 7 8 2 C 19 7 10 3 D 14 9 6 4 E 14 12 6 5 F 11 9 5 6 G 20 9 9 7:28 4 12
मान लीजिए कि हम पंक्तियों का एक नमूना बेतरतीब ढंग से चुनने के लिए नमूना() फ़ंक्शन का उपयोग करते हैं:
#randomly select 6 rows from DataFrame (without replacement) df. sample (n= 6 , random_state= 0 ) team points assists rebounds 6 G 20 9 9 2 C 19 7 10 1 B 22 7 8 7:28 4 12 3 D 14 9 6 0 A 18 5 11
ध्यान दें कि डेटाफ़्रेम में छह पंक्तियों का चयन किया गया है और कोई भी पंक्ति नमूने में कई बार दिखाई नहीं देती है।
नोट : रैंडम_स्टेट=0 तर्क यह सुनिश्चित करता है कि यह उदाहरण प्रतिलिपि प्रस्तुत करने योग्य है।
अब मान लीजिए कि हम प्रतिस्थापन के साथ पंक्तियों का एक यादृच्छिक नमूना चुनने के लिए प्रतिस्थापित = सही तर्क का उपयोग करते हैं:
#randomly select 6 rows from DataFrame (with replacement) df. sample (n= 6 , replace= True , random_state= 0 ) team points assists rebounds 4 E 14 12 6 7:28 4 12 5 F 11 9 5 0 A 18 5 11 3 D 14 9 6 3 D 14 9 6
ध्यान दें कि टीम “डी” वाली लाइन कई बार दिखाई देती है।
रिप्लेस=ट्रू तर्क का उपयोग करके, हम एक ही पंक्ति को नमूने में कई बार प्रदर्शित होने की अनुमति देते हैं।
यह भी ध्यान दें कि हम फ़्रेक तर्क का उपयोग करके नमूने में शामिल करने के लिए डेटाफ़्रेम का एक यादृच्छिक अंश चुन सकते हैं।
उदाहरण के लिए, निम्न उदाहरण दिखाता है कि प्रतिस्थापन नमूने में शामिल करने के लिए 75% पंक्तियों का चयन कैसे करें:
#randomly select 75% of rows (with replacement) df. sample (frac= 0.75 , replace= True , random_state= 0 ) team points assists rebounds 4 E 14 12 6 7:28 4 12 5 F 11 9 5 0 A 18 5 11 3 D 14 9 6 3 D 14 9 6
ध्यान दें कि पंक्तियों की संख्या का 75% (8 में से 6) नमूने में शामिल थे और कम से कम एक पंक्ति (टीम “डी” के साथ) नमूने में दो बार दिखाई दी।
नोट : आप पांडा सैंपल() फ़ंक्शन के लिए संपूर्ण दस्तावेज़ यहां पा सकते हैं।
अतिरिक्त संसाधन
निम्नलिखित ट्यूटोरियल बताते हैं कि पांडा में अन्य सामान्य नमूनाकरण विधियाँ कैसे निष्पादित करें:
पांडा में स्तरीकृत नमूनाकरण कैसे करें
पांडा में क्लस्टर सैंपलिंग कैसे करें