วิธีการคำนวณสถิติสรุปสำหรับ pandas dataframe

โดย ดร.เบนจามิน แอนเดอร์สัน กรกฎาคม 20, 2023 แนะนำ 0 ความคิดเห็น

คุณสามารถใช้วิธีการต่อไปนี้เพื่อคำนวณสถิติสรุปสำหรับตัวแปรใน Pandas DataFrame:

วิธีที่ 1: คำนวณสถิติสรุปสำหรับตัวแปรตัวเลขทั้งหมด

 df. describe ()

วิธีที่ 2: คำนวณสถิติสรุปสำหรับตัวแปรสตริงทั้งหมด

 df. describe (include=' object ')

วิธีที่ 3: คำนวณสถิติสรุปที่จัดกลุ่มตามตัวแปร

 df. groupby (' group_column '). mean ()

df. groupby (' group_column '). median ()

df. groupby (' group_column '). max ()

...

ตัวอย่างต่อไปนี้แสดงวิธีการใช้แต่ละวิธีในทางปฏิบัติกับ Pandas DataFrame ต่อไปนี้:

 import pandas as pd
import numpy as np

#createDataFrame
df = pd. DataFrame ({' team ': ['A', 'A', 'A', 'A', 'B', 'B', 'B', 'B', 'B'],
                   ' points ': [18, 22, 19, 14, 14, 11, 20, 28, 30],
                   ' assists ': [5, np.nan, 7, 9, 12, 9, 9, 4, 5],
                   ' rebounds ': [11, 8, 10, 6, 6, 5, 9, np.nan, 6]})

#view DataFrame
print (df)

  team points assists rebounds
0 to 18 5.0 11.0
1 to 22 NaN 8.0
2 A 19 7.0 10.0
3 A 14 9.0 6.0
4 B 14 12.0 6.0
5 B 11 9.0 5.0
6 B 20 9.0 9.0
7 B 28 4.0 NaN
8 B 30 5.0 6.0

ตัวอย่างที่ 1: คำนวณสถิติสรุปสำหรับตัวแปรตัวเลขทั้งหมด

รหัสต่อไปนี้แสดงวิธีการคำนวณสถิติสรุปสำหรับตัวแปรตัวเลขแต่ละตัวใน DataFrame:

 df. describe ()

	   points assists rebounds
count 9.000000 8.000000 8.000000
mean 19.555556 7.500000 7.625000
std 6.366143 2.725541 2.199838
min 11.000000 4.000000 5.000000
25% 14,000000 5,000000 6,000000
50% 19,000000 8,000000 7,000000
75% 22.000000 9.000000 9.250000
max 30.000000 12.000000 11.000000

เราสามารถดูสถิติสรุปต่อไปนี้สำหรับตัวแปรตัวเลขทั้งสามตัว:

count: จำนวนค่าที่ไม่ใช่ศูนย์
เฉลี่ย : มูลค่าเฉลี่ย
std : ค่าเบี่ยงเบนมาตรฐาน
นาที: ค่าต่ำสุด
25% : ค่าที่เปอร์เซ็นไทล์ที่ 25
50% : ค่าที่เปอร์เซ็นไทล์ที่ 50 (รวมถึงค่ามัธยฐานด้วย)
75% : ค่าที่เปอร์เซ็นไทล์ที่ 75
สูงสุด : ค่าสูงสุด

ตัวอย่างที่ 2: คำนวณสถิติสรุปสำหรับตัวแปรสตริงทั้งหมด

รหัสต่อไปนี้แสดงวิธีการคำนวณสถิติสรุปสำหรับตัวแปรสตริงแต่ละตัวใน DataFrame:

 df. describe (include=' object ')

	team
count 9
single 2
top B
freq 5

เราสามารถดูสถิติสรุปต่อไปนี้สำหรับตัวแปรสตริงใน DataFrame ของเรา:

count : จำนวนค่าที่ไม่ใช่ศูนย์
Unique : จำนวนค่าที่ไม่ซ้ำ
ที่ด้านบน: ค่าที่พบบ่อยที่สุด
freq : จำนวนค่าที่ปรากฏบ่อยที่สุด

ตัวอย่างที่ 3: คำนวณสถิติสรุปโดยจัดกลุ่มตามตัวแปร

รหัสต่อไปนี้แสดงวิธีการคำนวณค่าเฉลี่ยของตัวแปรตัวเลขทั้งหมด โดยจัดกลุ่มตามตัวแปร ทีม :

 df. groupby (' team '). mean ()

	points assists rebounds
team			
A 18.25 7.0 8.75
B 20.60 7.8 6.50

ผลลัพธ์จะแสดงค่าเฉลี่ยของ ตัวแปรแต้ม แอสซิสต์ และ รีบาว ด์ โดยจัดกลุ่มตามตัวแปร ทีม

โปรดทราบว่าเราสามารถใช้ไวยากรณ์ที่คล้ายกันในการคำนวณสถิติสรุปที่แตกต่างกัน เช่น ค่ามัธยฐาน:

 df. groupby (' team '). median ()

	points assists rebounds
team			
A 18.5 7.0 9.0
B 20.0 9.0 6.0

ผลลัพธ์จะแสดงค่ามัธยฐานของ ตัวแปร point , assists และ rebounds โดยจัดกลุ่มตามตัวแปร ทีม

หมายเหตุ : คุณสามารถค้นหาเอกสารฉบับเต็มของฟังก์ชัน คำอธิบาย ในแพนด้า ได้ที่นี่

แหล่งข้อมูลเพิ่มเติม

บทช่วยสอนต่อไปนี้จะอธิบายวิธีดำเนินการงานแพนด้าทั่วไปอื่นๆ:

วิธีนับการพบเห็นฝูงแพนด้า
วิธีค้นหาค่าสูงสุดต่อกลุ่มที่ Pandas
วิธีระบุค่าผิดปกติในแพนด้า

เกี่ยวกับผู้แต่ง

ดร.เบนจามิน แอนเดอร์สัน

สวัสดี ฉันชื่อเบนจามิน ศาสตราจารย์สถิติเกษียณอายุแล้ว และผันตัวมาเป็นครูสอนสถิติโดยเฉพาะ ด้วยประสบการณ์และความเชี่ยวชาญที่กว้างขวางในสาขาสถิติ ฉันกระตือรือร้นที่จะแบ่งปันความรู้ของฉันเพื่อเสริมศักยภาพนักเรียนผ่าน Statorials. รู้เพิ่มเติม