วิธีคำนวณสรุปตัวเลขห้าตัวในภาษานุ่น
การสรุปห้าหลัก เป็นวิธีการสรุปชุดข้อมูลโดยใช้ค่าห้าค่าต่อไปนี้:
- ขั้นต่ำ
- ควอไทล์แรก
- ค่ามัธยฐาน
- ควอร์ไทล์ที่สาม
- สูงสุด
สรุปตัวเลขห้าตัวมีประโยชน์เพราะเป็นการสรุปการกระจายข้อมูลโดยย่อดังนี้
- มันบอกเราว่า ค่ามัธยฐาน อยู่ที่ไหน โดยใช้ค่ามัธยฐาน
- มันบอกเราถึงการกระจายตัวของข้อมูลโดยใช้ควอไทล์ที่หนึ่งและสาม
- มันบอกเราถึงช่วงของข้อมูลโดยใช้ค่าต่ำสุดและสูงสุด
วิธีที่ง่ายที่สุดในการคำนวณสรุปตัวเลขห้าตัวสำหรับตัวแปรใน Pandas DataFrame คือการใช้ฟังก์ชัน อธิบาย() ดังนี้:
df. describe (). loc [[' min ', '25 % ', '50 % ', '75% ', ' max ']]
ตัวอย่างต่อไปนี้แสดงวิธีใช้ไวยากรณ์นี้ในทางปฏิบัติ
ตัวอย่าง: คำนวณผลสรุปของตัวเลขห้าตัวใน Pandas DataFrame
สมมติว่าเรามี DataFrame แพนด้าต่อไปนี้ซึ่งมีข้อมูลเกี่ยวกับผู้เล่นบาสเกตบอลต่างๆ:
import pandas as pd
#createDataFrame
df = pd. DataFrame ({' team ': ['A', 'B', 'C', 'D', 'E', 'F', 'G', 'H'],
' points ': [18, 22, 19, 14, 14, 11, 20, 28],
' assists ': [5, 7, 7, 9, 12, 9, 9, 4],
' rebounds ': [11, 8, 10, 6, 6, 5, 9, 12]})
#view DataFrame
print (df)
team points assists rebounds
0 A 18 5 11
1 B 22 7 8
2 C 19 7 10
3 D 14 9 6
4 E 14 12 6
5 F 11 9 5
6 G 20 9 9
7:28 4 12
เราสามารถใช้ไวยากรณ์ต่อไปนี้เพื่อคำนวณสรุปตัวเลขห้าตัวสำหรับตัวแปรตัวเลขแต่ละตัวใน DataFrame:
#calculate five number summary for each numeric variable df. describe (). loc [[' min ', '25 % ', '50 % ', '75% ', ' max ']] points assists rebounds min 11.0 4.0 5.00 25% 14.0 6.5 6.00 50% 18.5 8.0 8.50 75% 20.5 9.0 10.25 max 28.0 12.0 12.00
ต่อไปนี้เป็นวิธีการตีความผลลัพธ์ของตัวแปร จุด :
- ค่าต่ำสุดคือ 11
- ค่าที่เปอร์เซ็นไทล์ที่ 25 คือ 14
- ค่าเปอร์เซ็นไทล์ที่ 50 คือ 18.5
- ค่าเปอร์เซ็นไทล์ที่ 75 คือ 20.5
- ค่าสูงสุดคือ 28
เราสามารถตีความค่าของตัวแปร help และ rebound ได้ ในลักษณะเดียวกัน
หากคุณต้องการคำนวณสรุปตัวเลขห้าตัวสำหรับตัวแปรเฉพาะใน DataFrame คุณสามารถใช้ไวยากรณ์ต่อไปนี้:
#calculate five number summary for the points variable df[' points ']. describe (). loc [[' min ', '25 % ', '50 % ', '75% ', ' max ']] min 11.0 25% 14.0 50% 18.5 75% 20.5 max 28.0 Name: points, dtype: float64
ตอนนี้เอาต์พุตจะแสดงข้อมูลสรุปห้าหลักสำหรับตัวแปร คะแนน เท่านั้น
แหล่งข้อมูลเพิ่มเติม
บทช่วยสอนต่อไปนี้จะอธิบายวิธีดำเนินการงานแพนด้าทั่วไปอื่นๆ:
Pandas: วิธีรับจำนวนความถี่ของค่าในคอลัมน์
นุ่น: วิธีคำนวณค่าเฉลี่ยต่อกลุ่ม
นุ่น: วิธีคำนวณค่ามัธยฐานตามกลุ่ม