पांडास डेटाफ़्रेम के लिए सारांश आंकड़ों की गणना कैसे करें
आप पांडा डेटाफ़्रेम में चर के लिए सारांश आंकड़ों की गणना करने के लिए निम्नलिखित विधियों का उपयोग कर सकते हैं:
विधि 1: सभी संख्यात्मक चरों के लिए सारांश आँकड़ों की गणना करें
df. describe ()
विधि 2: सभी स्ट्रिंग चरों के लिए सारांश आँकड़ों की गणना करें
df. describe (include=' object ')
विधि 3: एक चर द्वारा समूहीकृत सारांश आँकड़ों की गणना करें
df. groupby (' group_column '). mean () df. groupby (' group_column '). median () df. groupby (' group_column '). max () ...
निम्नलिखित उदाहरण दिखाते हैं कि निम्नलिखित पांडा डेटाफ़्रेम के साथ व्यवहार में प्रत्येक विधि का उपयोग कैसे करें:
import pandas as pd import numpy as np #createDataFrame df = pd. DataFrame ({' team ': ['A', 'A', 'A', 'A', 'B', 'B', 'B', 'B', 'B'], ' points ': [18, 22, 19, 14, 14, 11, 20, 28, 30], ' assists ': [5, np.nan, 7, 9, 12, 9, 9, 4, 5], ' rebounds ': [11, 8, 10, 6, 6, 5, 9, np.nan, 6]}) #view DataFrame print (df) team points assists rebounds 0 to 18 5.0 11.0 1 to 22 NaN 8.0 2 A 19 7.0 10.0 3 A 14 9.0 6.0 4 B 14 12.0 6.0 5 B 11 9.0 5.0 6 B 20 9.0 9.0 7 B 28 4.0 NaN 8 B 30 5.0 6.0
उदाहरण 1: सभी संख्यात्मक चरों के लिए सारांश आँकड़ों की गणना करें
निम्नलिखित कोड दिखाता है कि डेटाफ़्रेम में प्रत्येक संख्यात्मक चर के लिए सारांश आंकड़ों की गणना कैसे करें:
df. describe ()
points assists rebounds
count 9.000000 8.000000 8.000000
mean 19.555556 7.500000 7.625000
std 6.366143 2.725541 2.199838
min 11.000000 4.000000 5.000000
25% 14,000000 5,000000 6,000000
50% 19,000000 8,000000 7,000000
75% 22.000000 9.000000 9.250000
max 30.000000 12.000000 11.000000
हम तीन संख्यात्मक चरों में से प्रत्येक के लिए निम्नलिखित सारांश आँकड़े देख सकते हैं:
- गिनती: गैर-शून्य मानों की संख्या
- औसत : औसत मूल्य
- एसटीडी : मानक विचलन
- न्यूनतम: न्यूनतम मान
- 25% : 25वें प्रतिशतक पर मूल्य
- 50% : 50वें प्रतिशतक पर मान (माध्यिका भी)
- 75% : 75वें प्रतिशतक पर मूल्य
- अधिकतम : अधिकतम मान
उदाहरण 2: सभी स्ट्रिंग चरों के लिए सारांश आँकड़ों की गणना करें
निम्नलिखित कोड दिखाता है कि डेटाफ़्रेम में प्रत्येक स्ट्रिंग चर के लिए सारांश आंकड़ों की गणना कैसे करें:
df. describe (include=' object ') team count 9 single 2 top B freq 5
हम अपने डेटाफ़्रेम में स्ट्रिंग वेरिएबल के लिए निम्नलिखित सारांश आँकड़े देख सकते हैं:
- गिनती : गैर-शून्य मानों की संख्या
- अद्वितीय : अद्वितीय मानों की संख्या
- शीर्ष पर: सबसे अधिक बार होने वाला मान
- आवृत्ति : सबसे अधिक बार प्रदर्शित होने वाले मानों की संख्या
उदाहरण 3: एक चर द्वारा समूहीकृत सारांश आँकड़ों की गणना करें
निम्नलिखित कोड दिखाता है कि टीम चर द्वारा समूहीकृत सभी संख्यात्मक चर के औसत मूल्य की गणना कैसे करें:
df. groupby (' team '). mean () points assists rebounds team A 18.25 7.0 8.75 B 20.60 7.8 6.50
आउटपुट टीम वेरिएबल द्वारा समूहीकृत पॉइंट , सहायता और रिबाउंड वेरिएबल का औसत मूल्य प्रदर्शित करता है।
ध्यान दें कि हम भिन्न सारांश आँकड़ों की गणना करने के लिए समान वाक्यविन्यास का उपयोग कर सकते हैं, जैसे कि माध्यिका:
df. groupby (' team '). median () points assists rebounds team A 18.5 7.0 9.0 B 20.0 9.0 6.0
आउटपुट टीम वेरिएबल द्वारा समूहीकृत पॉइंट , सहायता और रिबाउंड वेरिएबल का औसत मूल्य प्रदर्शित करता है।
नोट : आप पांडा में विवरण फ़ंक्शन का पूरा दस्तावेज़ यहां पा सकते हैं।
अतिरिक्त संसाधन
निम्नलिखित ट्यूटोरियल बताते हैं कि अन्य सामान्य पांडा कार्य कैसे करें:
पांडा में समूह देखे जाने की गिनती कैसे करें
पंडों में प्रति समूह अधिकतम मूल्य कैसे प्राप्त करें
पांडा में आउटलेर्स की पहचान कैसे करें