كيفية حساب إحصائيات الملخص لـ pandas dataframe


يمكنك استخدام الطرق التالية لحساب إحصائيات الملخص للمتغيرات في pandas DataFrame:

الطريقة الأولى: حساب إحصائيات الملخص لكافة المتغيرات الرقمية

 df. describe ()

الطريقة الثانية: حساب إحصائيات التلخيص لكافة متغيرات السلسلة

 df. describe (include=' object ')

الطريقة الثالثة: حساب إحصائيات الملخص المجمعة حسب متغير

 df. groupby (' group_column '). mean ()

df. groupby (' group_column '). median ()

df. groupby (' group_column '). max ()

...

توضح الأمثلة التالية كيفية استخدام كل طريقة عمليًا مع الباندا DataFrame التالية:

 import pandas as pd
import numpy as np

#createDataFrame
df = pd. DataFrame ({' team ': ['A', 'A', 'A', 'A', 'B', 'B', 'B', 'B', 'B'],
                   ' points ': [18, 22, 19, 14, 14, 11, 20, 28, 30],
                   ' assists ': [5, np.nan, 7, 9, 12, 9, 9, 4, 5],
                   ' rebounds ': [11, 8, 10, 6, 6, 5, 9, np.nan, 6]})

#view DataFrame
print (df)

  team points assists rebounds
0 to 18 5.0 11.0
1 to 22 NaN 8.0
2 A 19 7.0 10.0
3 A 14 9.0 6.0
4 B 14 12.0 6.0
5 B 11 9.0 5.0
6 B 20 9.0 9.0
7 B 28 4.0 NaN
8 B 30 5.0 6.0

مثال 1: حساب إحصائيات الملخص لجميع المتغيرات الرقمية

يوضح التعليمة البرمجية التالية كيفية حساب إحصائيات الملخص لكل متغير رقمي في DataFrame:

 df. describe ()

	   points assists rebounds
count 9.000000 8.000000 8.000000
mean 19.555556 7.500000 7.625000
std 6.366143 2.725541 2.199838
min 11.000000 4.000000 5.000000
25% 14,000000 5,000000 6,000000
50% 19,000000 8,000000 7,000000
75% 22.000000 9.000000 9.250000
max 30.000000 12.000000 11.000000

يمكننا أن نرى الإحصائيات الموجزة التالية لكل من المتغيرات الرقمية الثلاثة:

  • العد: عدد القيم غير الصفرية
  • المتوسط : القيمة المتوسطة
  • std : الانحراف المعياري
  • الحد الأدنى: القيمة الدنيا
  • 25% : القيمة عند النسبة المئوية الخامسة والعشرين
  • 50% : القيمة عند المئين الخمسين (الوسيط أيضًا)
  • 75% : القيمة عند النسبة المئوية 75
  • الحد الأقصى : القيمة القصوى

المثال 2: حساب إحصائيات الملخص لجميع متغيرات السلسلة

يوضح التعليمة البرمجية التالية كيفية حساب إحصائيات الملخص لكل متغير سلسلة في DataFrame:

 df. describe (include=' object ')

	team
count 9
single 2
top B
freq 5

يمكننا رؤية الإحصائيات الموجزة التالية لمتغير السلسلة في DataFrame الخاص بنا:

  • العد : عدد القيم غير الصفرية
  • فريد : عدد القيم الفريدة
  • في الأعلى: القيمة الأكثر تكرارًا
  • التكرار : عدد القيم التي تظهر بشكل متكرر

مثال 3: حساب إحصائيات الملخص مجمعة حسب متغير

يوضح التعليمة البرمجية التالية كيفية حساب متوسط قيمة كافة المتغيرات الرقمية، مجمعة حسب متغير الفريق :

 df. groupby (' team '). mean ()

	points assists rebounds
team			
A 18.25 7.0 8.75
B 20.60 7.8 6.50

تعرض المخرجات متوسط قيمة متغيرات النقاط والتمريرات الحاسمة والمرتدات ، مجمعة حسب متغير الفريق .

لاحظ أنه يمكننا استخدام صيغة مشابهة لحساب إحصائية ملخصة مختلفة، مثل الوسيط:

 df. groupby (' team '). median ()

	points assists rebounds
team			
A 18.5 7.0 9.0
B 20.0 9.0 6.0

يعرض الناتج القيمة المتوسطة لمتغيرات النقاط ، والتمريرات الحاسمة ، والمرتدات ، مجمعة حسب متغير الفريق .

ملاحظة : يمكنك العثور على الوثائق الكاملة لوظيفة الوصف في الباندا هنا .

مصادر إضافية

تشرح البرامج التعليمية التالية كيفية تنفيذ مهام الباندا الشائعة الأخرى:

كيفية حساب مشاهدات المجموعة في الباندا
كيفية العثور على الحد الأقصى للقيمة لكل مجموعة في الباندا
كيفية التعرف على القيم المتطرفة في الباندا

Add a Comment

ایمئیل یایینلانمایاجاق ایسته‎نیله‎ن بوشلوقلار خاللانمیشدیر *