पांडा में पाँच संख्याओं के सारांश की गणना कैसे करें


पाँच अंकों का सारांश निम्नलिखित पाँच मानों का उपयोग करके डेटा के एक सेट को सारांशित करने का एक तरीका है:

  • न्यूनतम
  • प्रथम चतुर्थक
  • मध्यस्थ
  • तृतीय चतुर्थक
  • अधिकतम

पाँच-अंकीय सारांश उपयोगी है क्योंकि यह निम्नानुसार डेटा वितरण का संक्षिप्त सारांश प्रदान करता है:

  • यह माध्यिका का उपयोग करके हमें बताता है कि माध्यिका मान कहां है।
  • यह हमें पहले और तीसरे चतुर्थक का उपयोग करके डेटा का वितरण बताता है।
  • यह न्यूनतम और अधिकतम का उपयोग करके हमें डेटा की सीमा बताता है।

पांडा डेटाफ़्रेम में चर के लिए पांच-संख्या सारांश की गणना करने का सबसे सरल तरीका निम्नानुसार वर्णन() फ़ंक्शन का उपयोग करना है:

 df. describe (). loc [[' min ', '25 % ', '50 % ', '75% ', ' max ']]

निम्नलिखित उदाहरण दिखाता है कि व्यवहार में इस वाक्यविन्यास का उपयोग कैसे करें।

उदाहरण: पांडास डेटाफ़्रेम में पाँच संख्याओं के सारांश की गणना करें

मान लीजिए कि हमारे पास निम्नलिखित पांडा डेटाफ़्रेम है जिसमें विभिन्न बास्केटबॉल खिलाड़ियों के बारे में जानकारी है:

 import pandas as pd

#createDataFrame
df = pd. DataFrame ({' team ': ['A', 'B', 'C', 'D', 'E', 'F', 'G', 'H'],
                   ' points ': [18, 22, 19, 14, 14, 11, 20, 28],
                   ' assists ': [5, 7, 7, 9, 12, 9, 9, 4],
                   ' rebounds ': [11, 8, 10, 6, 6, 5, 9, 12]})

#view DataFrame
print (df)

  team points assists rebounds
0 A 18 5 11
1 B 22 7 8
2 C 19 7 10
3 D 14 9 6
4 E 14 12 6
5 F 11 9 5
6 G 20 9 9
7:28 4 12

हम डेटाफ़्रेम में प्रत्येक संख्यात्मक चर के लिए पांच-संख्या सारांश की गणना करने के लिए निम्नलिखित सिंटैक्स का उपयोग कर सकते हैं:

 #calculate five number summary for each numeric variable
df. describe (). loc [[' min ', '25 % ', '50 % ', '75% ', ' max ']]

      points assists rebounds
min 11.0 4.0 5.00
25% 14.0 6.5 6.00
50% 18.5 8.0 8.50
75% 20.5 9.0 10.25
max 28.0 12.0 12.00

यहां बताया गया है कि पॉइंट वेरिएबल के परिणाम की व्याख्या कैसे करें:

  • न्यूनतम मान 11 है.
  • 25वें प्रतिशतक पर मान 14 है।
  • 50वां प्रतिशतक मान 18.5 है।
  • 75वाँ प्रतिशतक मान 20.5 है।
  • अधिकतम मान 28 है.

हम सहायता और रिबाउंड चर के मूल्यों की उसी तरह व्याख्या कर सकते हैं।

यदि आप डेटाफ़्रेम में किसी विशिष्ट चर के लिए केवल पाँच-संख्या सारांश की गणना करना चाहते हैं, तो आप निम्नलिखित सिंटैक्स का उपयोग कर सकते हैं:

 #calculate five number summary for the points variable
df[' points ']. describe (). loc [[' min ', '25 % ', '50 % ', '75% ', ' max ']]

min 11.0
25% 14.0
50% 18.5
75% 20.5
max 28.0
Name: points, dtype: float64

आउटपुट अब केवल पॉइंट वेरिएबल के लिए पांच अंकों का सारांश दिखाता है।

अतिरिक्त संसाधन

निम्नलिखित ट्यूटोरियल बताते हैं कि अन्य सामान्य पांडा कार्य कैसे करें:

पांडा: किसी कॉलम में मानों की आवृत्ति गणना कैसे प्राप्त करें
पांडा: प्रति समूह औसत की गणना कैसे करें
पांडा: समूह द्वारा माध्यिका की गणना कैसे करें

एक टिप्पणी जोड़ने

आपका ईमेल पता प्रकाशित नहीं किया जाएगा. आवश्यक फ़ील्ड चिह्नित हैं *