पांडा में नमूना डेटासेट तक कैसे पहुंचें

द्वारा डॉ. बेंजामिन एंडरसन जुलाई 19, 2023 मार्गदर्शक शून्य टिप्पणियां

अक्सर आप विभिन्न कार्यों को चलाने और अभ्यास करने के लिए पांडा में नमूना डेटासेट तक पहुंचना चाह सकते हैं।

सौभाग्य से, आप अंतर्निहित परीक्षण फ़ंक्शन का उपयोग करके नमूना पांडा डेटासेट बना सकते हैं।

निम्नलिखित उदाहरण बताते हैं कि इस सुविधा का उपयोग कैसे करें।

उदाहरण 1: सभी संख्यात्मक स्तंभों के साथ एक पांडा डेटासेट बनाएं

निम्नलिखित कोड दिखाता है कि सभी संख्यात्मक स्तंभों के साथ पांडा डेटासेट कैसे बनाया जाए:

 import pandas as pd

#create sample dataset
df1 = pd. util . testing . makeDataFrame ()

#view dimensions of dataset
print ( df1.shape )

(30, 4)

#view first five rows of dataset
print ( df1.head ())

                   ABCD
s8tpz0W5mF -0.751223 0.956338 -0.441847 0.695612
CXQ9YhLhk8 -0.210881 -0.231347 -0.227672 -0.616171
KAbcor6sQK 0.727880 0.128638 -0.989993 1.094069
IH3bptMpdb -1.599723 1.570162 -0.221688 2.194936
gar9ZxBTrH 0.025171 -0.446555 0.169873 -1.583553

डिफ़ॉल्ट रूप से, makeDataFrame() फ़ंक्शन 30 पंक्तियों और 4 स्तंभों वाला एक पांडा डेटाफ़्रेम बनाता है जिसमें सभी स्तंभ संख्यात्मक होते हैं।

उदाहरण 2: मिश्रित कॉलम के साथ एक पांडा डेटासेट बनाएं

 import pandas as pd

#create sample dataset
df2 = pd. util . testing . makeMixedDataFrame ()

#view dimensions of dataset
print ( df2.shape )

(5, 4)

#view first five rows of dataset
print ( df2.head ())

     ABCD
0 0.0 0.0 foo1 2009-01-01
1 1.0 1.0 foo2 2009-01-02
2 2.0 0.0 foo3 2009-01-05
3 3.0 1.0 foo4 2009-01-06
4 4.0 0.0 foo5 2009-01-07

डिफ़ॉल्ट रूप से, makeMixedDataFrame() फ़ंक्शन 5 पंक्तियों और 4 कॉलम के साथ एक पांडा डेटाफ़्रेम बनाता है जिसमें कॉलम विभिन्न प्रकार के डेटा प्रकार होते हैं।

हम प्रत्येक कॉलम के डेटा प्रकार को प्रदर्शित करने के लिए निम्नलिखित कोड का उपयोग कर सकते हैं:

 #display data type of each column
df2. dtypes

A float64
B float64
C object
D datetime64[ns]
dtype:object

परिणाम से हम देख सकते हैं:

कॉलम ए संख्यात्मक है
कॉलम बी संख्यात्मक है
कॉलम C एक स्ट्रिंग है
कॉलम डी एक तारीख है

उदाहरण 3: लुप्त मानों के साथ एक पांडा डेटासेट बनाएं

निम्नलिखित कोड दिखाता है कि विभिन्न स्तंभों में गुम मानों के साथ पांडा डेटासेट कैसे बनाया जाए:

 import pandas as pd

#create sample dataset
df3 = pd. util . testing . makeMissingDataFrame ()

#view dimensions of dataset
print ( df3.shape )

(30, 4)

#view first five rows of dataset
print ( df3.head ())

                   ABCD
YgAQaNaGfG 0.444376 -2.264920 1.117377 -0.087507
JoT4KxJeHd 1.913939 1.287006 -0.331315 -0.392949
tyrA2P6wz3 NaN 2.988521 0.399583 0.095831
1qvPc9DU1t 0.028716 1.311452 -0.237756 -0.150362
3aAXYtXjIO -1.069339 0.332067 0.204074 NaN

डिफ़ॉल्ट रूप से, makeMissingDataFrame() फ़ंक्शन 30 पंक्तियों और 4 कॉलमों के साथ एक पांडा डेटाफ़्रेम बनाता है जिसमें विभिन्न कॉलमों में गुम मान (NaN) होते हैं।

यह सुविधा विशेष रूप से उपयोगी है क्योंकि यह आपको ऐसे डेटासेट के साथ काम करने की अनुमति देती है जिसमें गायब मान हैं, जो वास्तविक दुनिया के डेटासेट में आम है।

अतिरिक्त संसाधन

निम्नलिखित ट्यूटोरियल बताते हैं कि पांडा में अन्य सामान्य कार्य कैसे करें:

यादृच्छिक डेटा के साथ पांडा डेटाफ़्रेम कैसे बनाएं
पांडा में पंक्तियों का बेतरतीब ढंग से नमूना कैसे लें
पांडास डेटाफ़्रेम में पंक्तियों को कैसे शफ़ल करें

लेखक के बारे में

डॉ. बेंजामिन एंडरसन

नमस्ते, मैं बेंजामिन हूं, एक सेवानिवृत्त सांख्यिकी प्रोफेसर जो अब समर्पित Statorials शिक्षक बन गया है। सांख्यिकी के क्षेत्र में व्यापक अनुभव और विशेषज्ञता के साथ, मैं Statorials के माध्यम से छात्रों को सशक्त बनाने के लिए अपना ज्ञान साझा करने के लिए उत्सुक हूं। अधिक जाने