पांडा डेटाफ़्रेम को बाद में उपयोग के लिए कैसे सहेजें (उदाहरण के साथ)

द्वारा डॉ. बेंजामिन एंडरसन जुलाई 18, 2023 मार्गदर्शक शून्य टिप्पणियां

अक्सर आप सीएसवी फ़ाइल से डेटा को दोबारा आयात किए बिना बाद में उपयोग के लिए पांडा डेटाफ़्रेम को सहेजना चाह सकते हैं।

ऐसा करने का सबसे आसान तरीका डेटाफ़्रेम को अचार फ़ाइल के रूप में सहेजने के लिए to_pickle() का उपयोग करना है:

 df. to_pickle (" my_data.pkl ")

यह आपके वर्तमान कार्य परिवेश में डेटाफ़्रेम को सहेजेगा।

फिर आप पिकल फ़ाइल से डेटाफ़्रेम को तुरंत पढ़ने के लिए read_pickle() का उपयोग कर सकते हैं:

 df = pd. read_pickle (" my_data.pkl ")

निम्नलिखित उदाहरण दिखाता है कि व्यवहार में इन कार्यों का उपयोग कैसे करें।

उदाहरण: पांडा डेटाफ़्रेम को सहेजें और लोड करें

मान लीजिए कि हम निम्नलिखित पांडा डेटाफ़्रेम बनाते हैं जिसमें विभिन्न बास्केटबॉल टीमों के बारे में जानकारी शामिल है:

 import pandas as pd

#createDataFrame
df = pd. DataFrame ({' team ': ['A', 'B', 'C', 'D', 'E', 'F', 'G', 'H'],
                   ' points ': [18, 22, 19, 14, 14, 11, 20, 28],
                   ' assists ': [5, 7, 7, 9, 12, 9, 9, 4],
                   ' rebounds ': [11, 8, 10, 6, 6, 5, 9, 12]})

#view DataFrame
print (df)

  team points assists rebounds
0 A 18 5 11
1 B 22 7 8
2 C 19 7 10
3 D 14 9 6
4 E 14 12 6
5 F 11 9 5
6 G 20 9 9
7:28 4 12

हम डेटाफ़्रेम में प्रत्येक चर के डेटा प्रकार को प्रदर्शित करने के लिए df.info() का उपयोग कर सकते हैं:

 #view DataFrame info
print ( df.info ())

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 8 entries, 0 to 7
Data columns (total 4 columns):
 # Column Non-Null Count Dtype 
--- ------ -------------- ----- 
 0 team 8 non-null object
 1 point 8 non-null int64 
 2 assists 8 non-null int64 
 3 rebounds 8 non-null int64 
dtypes: int64(3), object(1)
memory usage: 292.0+ bytes
None

हम इस डेटाफ़्रेम को .pkl एक्सटेंशन वाली पिकल फ़ाइल में सहेजने के लिए to_pickle() फ़ंक्शन का उपयोग कर सकते हैं:

 #save DataFrame to pickle file
df. to_pickle (" my_data.pkl ")

हमारा डेटाफ़्रेम अब हमारे वर्तमान कार्य परिवेश में एक अचार फ़ाइल के रूप में सहेजा गया है।

फिर हम डेटाफ़्रेम को शीघ्रता से पढ़ने के लिए read_pickle() फ़ंक्शन का उपयोग कर सकते हैं:

 #read DataFrame from pickle file
df=pd. read_pickle (" my_data.pkl ")

#view DataFrame
print (df)

team points assists rebounds
0 A 18 5 11
1 B 22 7 8
2 C 19 7 10
3 D 14 9 6
4 E 14 12 6
5 F 11 9 5
6 G 20 9 9
7:28 4 12

हम यह पुष्टि करने के लिए फिर से df.info() का उपयोग कर सकते हैं कि प्रत्येक कॉलम का डेटा प्रकार पहले जैसा ही है:

 #view DataFrame info
print ( df.info ())

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 8 entries, 0 to 7
Data columns (total 4 columns):
 # Column Non-Null Count Dtype 
--- ------ -------------- ----- 
 0 team 8 non-null object
 1 point 8 non-null int64 
 2 assists 8 non-null int64 
 3 rebounds 8 non-null int64 
dtypes: int64(3), object(1)
memory usage: 292.0+ bytes
None

पिकल फ़ाइलों का उपयोग करने का लाभ यह है कि जब हम डेटाफ़्रेम को सहेजते और लोड करते हैं तो प्रत्येक कॉलम का डेटा प्रकार संरक्षित रहता है।

यह CSV फ़ाइलों को सहेजने और लोड करने पर एक लाभ प्रदान करता है क्योंकि हमें डेटाफ़्रेम पर कोई परिवर्तन करने की आवश्यकता नहीं होती है क्योंकि अचार फ़ाइल डेटाफ़्रेम की मूल स्थिति को संरक्षित करती है।

अतिरिक्त संसाधन

निम्नलिखित ट्यूटोरियल बताते हैं कि पायथन में अन्य सामान्य त्रुटियों को कैसे ठीक किया जाए:

पंडों में KeyError को कैसे ठीक करें
कैसे ठीक करें: वैल्यूएरर: फ्लोट NaN को int में बदलने में असमर्थ
कैसे ठीक करें: वैल्यूएरर: ऑपरेंड को आकृतियों के साथ प्रसारित नहीं किया जा सका

लेखक के बारे में

डॉ. बेंजामिन एंडरसन

नमस्ते, मैं बेंजामिन हूं, एक सेवानिवृत्त सांख्यिकी प्रोफेसर जो अब समर्पित Statorials शिक्षक बन गया है। सांख्यिकी के क्षेत्र में व्यापक अनुभव और विशेषज्ञता के साथ, मैं Statorials के माध्यम से छात्रों को सशक्त बनाने के लिए अपना ज्ञान साझा करने के लिए उत्सुक हूं। अधिक जाने

उदाहरण: पांडा डेटाफ़्रेम को सहेजें और लोड करें

अतिरिक्त संसाधन

लेखक के बारे में

डॉ. बेंजामिन एंडरसन

एक टिप्पणी जोड़ने