पांडा में पाँच संख्याओं के सारांश की गणना कैसे करें
पाँच अंकों का सारांश निम्नलिखित पाँच मानों का उपयोग करके डेटा के एक सेट को सारांशित करने का एक तरीका है:
- न्यूनतम
- प्रथम चतुर्थक
- मध्यस्थ
- तृतीय चतुर्थक
- अधिकतम
पाँच-अंकीय सारांश उपयोगी है क्योंकि यह निम्नानुसार डेटा वितरण का संक्षिप्त सारांश प्रदान करता है:
- यह माध्यिका का उपयोग करके हमें बताता है कि माध्यिका मान कहां है।
- यह हमें पहले और तीसरे चतुर्थक का उपयोग करके डेटा का वितरण बताता है।
- यह न्यूनतम और अधिकतम का उपयोग करके हमें डेटा की सीमा बताता है।
पांडा डेटाफ़्रेम में चर के लिए पांच-संख्या सारांश की गणना करने का सबसे सरल तरीका निम्नानुसार वर्णन() फ़ंक्शन का उपयोग करना है:
df. describe (). loc [[' min ', '25 % ', '50 % ', '75% ', ' max ']]
निम्नलिखित उदाहरण दिखाता है कि व्यवहार में इस वाक्यविन्यास का उपयोग कैसे करें।
उदाहरण: पांडास डेटाफ़्रेम में पाँच संख्याओं के सारांश की गणना करें
मान लीजिए कि हमारे पास निम्नलिखित पांडा डेटाफ़्रेम है जिसमें विभिन्न बास्केटबॉल खिलाड़ियों के बारे में जानकारी है:
import pandas as pd
#createDataFrame
df = pd. DataFrame ({' team ': ['A', 'B', 'C', 'D', 'E', 'F', 'G', 'H'],
' points ': [18, 22, 19, 14, 14, 11, 20, 28],
' assists ': [5, 7, 7, 9, 12, 9, 9, 4],
' rebounds ': [11, 8, 10, 6, 6, 5, 9, 12]})
#view DataFrame
print (df)
team points assists rebounds
0 A 18 5 11
1 B 22 7 8
2 C 19 7 10
3 D 14 9 6
4 E 14 12 6
5 F 11 9 5
6 G 20 9 9
7:28 4 12
हम डेटाफ़्रेम में प्रत्येक संख्यात्मक चर के लिए पांच-संख्या सारांश की गणना करने के लिए निम्नलिखित सिंटैक्स का उपयोग कर सकते हैं:
#calculate five number summary for each numeric variable df. describe (). loc [[' min ', '25 % ', '50 % ', '75% ', ' max ']] points assists rebounds min 11.0 4.0 5.00 25% 14.0 6.5 6.00 50% 18.5 8.0 8.50 75% 20.5 9.0 10.25 max 28.0 12.0 12.00
यहां बताया गया है कि पॉइंट वेरिएबल के परिणाम की व्याख्या कैसे करें:
- न्यूनतम मान 11 है.
- 25वें प्रतिशतक पर मान 14 है।
- 50वां प्रतिशतक मान 18.5 है।
- 75वाँ प्रतिशतक मान 20.5 है।
- अधिकतम मान 28 है.
हम सहायता और रिबाउंड चर के मूल्यों की उसी तरह व्याख्या कर सकते हैं।
यदि आप डेटाफ़्रेम में किसी विशिष्ट चर के लिए केवल पाँच-संख्या सारांश की गणना करना चाहते हैं, तो आप निम्नलिखित सिंटैक्स का उपयोग कर सकते हैं:
#calculate five number summary for the points variable df[' points ']. describe (). loc [[' min ', '25 % ', '50 % ', '75% ', ' max ']] min 11.0 25% 14.0 50% 18.5 75% 20.5 max 28.0 Name: points, dtype: float64
आउटपुट अब केवल पॉइंट वेरिएबल के लिए पांच अंकों का सारांश दिखाता है।
अतिरिक्त संसाधन
निम्नलिखित ट्यूटोरियल बताते हैं कि अन्य सामान्य पांडा कार्य कैसे करें:
पांडा: किसी कॉलम में मानों की आवृत्ति गणना कैसे प्राप्त करें
पांडा: प्रति समूह औसत की गणना कैसे करें
पांडा: समूह द्वारा माध्यिका की गणना कैसे करें