كيفية حساب إحصائيات الملخص لـ pandas dataframe
يمكنك استخدام الطرق التالية لحساب إحصائيات الملخص للمتغيرات في pandas DataFrame:
الطريقة الأولى: حساب إحصائيات الملخص لكافة المتغيرات الرقمية
df. describe ()
الطريقة الثانية: حساب إحصائيات التلخيص لكافة متغيرات السلسلة
df. describe (include=' object ')
الطريقة الثالثة: حساب إحصائيات الملخص المجمعة حسب متغير
df. groupby (' group_column '). mean () df. groupby (' group_column '). median () df. groupby (' group_column '). max () ...
توضح الأمثلة التالية كيفية استخدام كل طريقة عمليًا مع الباندا DataFrame التالية:
import pandas as pd import numpy as np #createDataFrame df = pd. DataFrame ({' team ': ['A', 'A', 'A', 'A', 'B', 'B', 'B', 'B', 'B'], ' points ': [18, 22, 19, 14, 14, 11, 20, 28, 30], ' assists ': [5, np.nan, 7, 9, 12, 9, 9, 4, 5], ' rebounds ': [11, 8, 10, 6, 6, 5, 9, np.nan, 6]}) #view DataFrame print (df) team points assists rebounds 0 to 18 5.0 11.0 1 to 22 NaN 8.0 2 A 19 7.0 10.0 3 A 14 9.0 6.0 4 B 14 12.0 6.0 5 B 11 9.0 5.0 6 B 20 9.0 9.0 7 B 28 4.0 NaN 8 B 30 5.0 6.0
مثال 1: حساب إحصائيات الملخص لجميع المتغيرات الرقمية
يوضح التعليمة البرمجية التالية كيفية حساب إحصائيات الملخص لكل متغير رقمي في DataFrame:
df. describe ()
points assists rebounds
count 9.000000 8.000000 8.000000
mean 19.555556 7.500000 7.625000
std 6.366143 2.725541 2.199838
min 11.000000 4.000000 5.000000
25% 14,000000 5,000000 6,000000
50% 19,000000 8,000000 7,000000
75% 22.000000 9.000000 9.250000
max 30.000000 12.000000 11.000000
يمكننا أن نرى الإحصائيات الموجزة التالية لكل من المتغيرات الرقمية الثلاثة:
- العد: عدد القيم غير الصفرية
- المتوسط : القيمة المتوسطة
- std : الانحراف المعياري
- الحد الأدنى: القيمة الدنيا
- 25% : القيمة عند النسبة المئوية الخامسة والعشرين
- 50% : القيمة عند المئين الخمسين (الوسيط أيضًا)
- 75% : القيمة عند النسبة المئوية 75
- الحد الأقصى : القيمة القصوى
المثال 2: حساب إحصائيات الملخص لجميع متغيرات السلسلة
يوضح التعليمة البرمجية التالية كيفية حساب إحصائيات الملخص لكل متغير سلسلة في DataFrame:
df. describe (include=' object ') team count 9 single 2 top B freq 5
يمكننا رؤية الإحصائيات الموجزة التالية لمتغير السلسلة في DataFrame الخاص بنا:
- العد : عدد القيم غير الصفرية
- فريد : عدد القيم الفريدة
- في الأعلى: القيمة الأكثر تكرارًا
- التكرار : عدد القيم التي تظهر بشكل متكرر
مثال 3: حساب إحصائيات الملخص مجمعة حسب متغير
يوضح التعليمة البرمجية التالية كيفية حساب متوسط قيمة كافة المتغيرات الرقمية، مجمعة حسب متغير الفريق :
df. groupby (' team '). mean () points assists rebounds team A 18.25 7.0 8.75 B 20.60 7.8 6.50
تعرض المخرجات متوسط قيمة متغيرات النقاط والتمريرات الحاسمة والمرتدات ، مجمعة حسب متغير الفريق .
لاحظ أنه يمكننا استخدام صيغة مشابهة لحساب إحصائية ملخصة مختلفة، مثل الوسيط:
df. groupby (' team '). median () points assists rebounds team A 18.5 7.0 9.0 B 20.0 9.0 6.0
يعرض الناتج القيمة المتوسطة لمتغيرات النقاط ، والتمريرات الحاسمة ، والمرتدات ، مجمعة حسب متغير الفريق .
ملاحظة : يمكنك العثور على الوثائق الكاملة لوظيفة الوصف في الباندا هنا .
مصادر إضافية
تشرح البرامج التعليمية التالية كيفية تنفيذ مهام الباندا الشائعة الأخرى:
كيفية حساب مشاهدات المجموعة في الباندا
كيفية العثور على الحد الأقصى للقيمة لكل مجموعة في الباندا
كيفية التعرف على القيم المتطرفة في الباندا