पांडा: थ्रेश के साथ ड्रॉपना() का उपयोग कैसे करें
आप पांडा डेटाफ़्रेम से उन पंक्तियों को हटाने के लिए ड्रॉपना() फ़ंक्शन का उपयोग कर सकते हैं जिनमें गुम मान हैं।
आप डेटाफ़्रेम में किसी पंक्ति या स्तंभ को बनाए रखने के लिए आवश्यक गैर-NaN मानों की न्यूनतम संख्या निर्दिष्ट करने के लिए थ्रेश तर्क का भी उपयोग कर सकते हैं।
व्यवहार में थ्रेशोल्ड तर्क का उपयोग करने के सबसे सामान्य तरीके यहां दिए गए हैं:
विधि 1: केवल न्यूनतम संख्या में गैर-NaN मान वाली पंक्तियाँ रखें
#only keep rows with at least 2 non-NaN values df. dropna (thresh= 2 )
विधि 2: केवल गैर-NaN मानों के न्यूनतम प्रतिशत वाली पंक्तियाँ रखें
#only keep rows with at least 70% non-NaN values df. dropna (thresh= 0.7 * len (df. columns ))
विधि 3: केवल न्यूनतम संख्या में गैर-NaN मान वाले कॉलम रखें
#only keep columns with at least 6 non-NaN values df. dropna (thresh= 6 ,axis= 1 )
विधि 4: केवल गैर-NaN मानों के न्यूनतम प्रतिशत वाले कॉलम रखें
#only keep columns with at least 70% non-NaN values df. dropna (thresh= 0.7 * len (df), axis= 1 )
निम्नलिखित उदाहरण दिखाते हैं कि निम्नलिखित पांडा डेटाफ़्रेम के साथ व्यवहार में प्रत्येक विधि का उपयोग कैसे करें:
import pandas as pd import numpy as np #createDataFrame df = pd. DataFrame ({' team ': ['A', 'B', 'C', 'D', 'E', 'F', 'G', 'H'], ' points ': [18, np.nan, 19, 14, 14, 11, 20, np.nan], ' assists ': [5, np.nan, np.nan, 9, np.nan, 9, 9, 4], ' rebounds ': [11, np.nan, 10, 6, 6, 5, 9, np.nan]}) #view DataFrame print (df) team points assists rebounds 0 A 18.0 5.0 11.0 1 B NaN NaN NaN 2 C 19.0 NaN 10.0 3D 14.0 9.0 6.0 4 E 14.0 NaN 6.0 5 F 11.0 9.0 5.0 6G 20.0 9.0 9.0 7H NaN 4.0 NaN
उदाहरण 1: केवल न्यूनतम संख्या में गैर-NaN मान वाली पंक्तियाँ रखें
हम डेटाफ़्रेम में केवल उन पंक्तियों को रखने के लिए निम्नलिखित सिंटैक्स का उपयोग कर सकते हैं जिनमें कम से कम 2 गैर-NaN मान हैं:
#only keep rows with at least 2 non-NaN values df. dropna (thresh= 2 ) team points assists rebounds 0 A 18.0 5.0 11.0 2 C 19.0 NaN 10.0 3D 14.0 9.0 6.0 4 E 14.0 NaN 6.0 5 F 11.0 9.0 5.0 6G 20.0 9.0 9.0 7H NaN 4.0 NaN
ध्यान दें कि सूचकांक स्थिति 1 पर पंक्ति हटा दी गई थी क्योंकि पूरी पंक्ति में केवल एक गैर-NaN मान था।
उदाहरण 2: केवल गैर-NaN मानों के न्यूनतम प्रतिशत वाली पंक्तियाँ रखें
हम डेटाफ़्रेम में केवल उन पंक्तियों को रखने के लिए निम्नलिखित सिंटैक्स का उपयोग कर सकते हैं जिनमें कम से कम 70% गैर-NaN मान हैं:
#only keep rows with at least 70% non-NaN values df. dropna (thresh= 0.7 * len (df. columns )) team points assists rebounds 0 A 18.0 5.0 11.0 2 C 19.0 NaN 10.0 3D 14.0 9.0 6.0 4 E 14.0 NaN 6.0 5 F 11.0 9.0 5.0 6G 20.0 9.0 9.0
ध्यान दें कि सूचकांक स्थिति 1 और 7 पर पंक्तियों को हटा दिया गया था क्योंकि इन पंक्तियों में गैर-NaN मानों के रूप में कम से कम 70% मान शामिल नहीं थे।
उदाहरण 3: केवल न्यूनतम संख्या में गैर-NaN मान वाले कॉलम रखें
हम डेटाफ़्रेम में केवल उन कॉलमों को रखने के लिए निम्नलिखित सिंटैक्स का उपयोग कर सकते हैं जिनमें कम से कम 6 गैर-NaN मान हैं:
#only keep columns with at least 6 non-NaN values df. dropna (thresh= 6 ,axis= 1 ) team points rebounds 0 A 18.0 11.0 1 B NaN NaN 2 C 19.0 10.0 3D 14.0 6.0 4E 14.0 6.0 5 F 11.0 5.0 6G 20.0 9.0 7 H NaN NaN
ध्यान दें कि “सहायता” कॉलम हटा दिया गया था क्योंकि उस कॉलम में कॉलम में कम से कम 6 गैर-NaN मान नहीं थे।
उदाहरण 4: केवल गैर-NaN मानों के न्यूनतम प्रतिशत वाले कॉलम रखें
हम डेटाफ़्रेम में केवल उन्हीं कॉलमों को रखने के लिए निम्नलिखित सिंटैक्स का उपयोग कर सकते हैं जिनमें कम से कम 70% गैर-NaN मान हैं:
#only keep columns with at least 70% non-NaN values df. dropna (thresh= 0.7 * len (df), axis= 1 ) team points rebounds 0 A 18.0 11.0 1 B NaN NaN 2 C 19.0 10.0 3D 14.0 6.0 4E 14.0 6.0 5 F 11.0 5.0 6G 20.0 9.0 7 H NaN NaN
ध्यान दें कि “समर्थन” कॉलम हटा दिया गया था क्योंकि इस कॉलम में कम से कम 70% गैर-NaN मान नहीं थे।
नोट : आप पांडा ड्रॉपना() फ़ंक्शन का पूरा दस्तावेज़ यहां पा सकते हैं।
अतिरिक्त संसाधन
निम्नलिखित ट्यूटोरियल बताते हैं कि पांडा में अन्य सामान्य कार्य कैसे करें:
पांडा: ड्रॉपना () का उपयोग करने के बाद इंडेक्स को कैसे रीसेट करें
पांडा: विशिष्ट स्तंभों के साथ ड्रॉपना() का उपयोग कैसे करें
पांडा: अनेक स्थितियों के आधार पर पंक्तियाँ कैसे हटाएँ