วิธีคำนวณสรุปตัวเลขห้าตัวในภาษานุ่น


การสรุปห้าหลัก เป็นวิธีการสรุปชุดข้อมูลโดยใช้ค่าห้าค่าต่อไปนี้:

  • ขั้นต่ำ
  • ควอไทล์แรก
  • ค่ามัธยฐาน
  • ควอร์ไทล์ที่สาม
  • สูงสุด

สรุปตัวเลขห้าตัวมีประโยชน์เพราะเป็นการสรุปการกระจายข้อมูลโดยย่อดังนี้

  • มันบอกเราว่า ค่ามัธยฐาน อยู่ที่ไหน โดยใช้ค่ามัธยฐาน
  • มันบอกเราถึงการกระจายตัวของข้อมูลโดยใช้ควอไทล์ที่หนึ่งและสาม
  • มันบอกเราถึงช่วงของข้อมูลโดยใช้ค่าต่ำสุดและสูงสุด

วิธีที่ง่ายที่สุดในการคำนวณสรุปตัวเลขห้าตัวสำหรับตัวแปรใน Pandas DataFrame คือการใช้ฟังก์ชัน อธิบาย() ดังนี้:

 df. describe (). loc [[' min ', '25 % ', '50 % ', '75% ', ' max ']]

ตัวอย่างต่อไปนี้แสดงวิธีใช้ไวยากรณ์นี้ในทางปฏิบัติ

ตัวอย่าง: คำนวณผลสรุปของตัวเลขห้าตัวใน Pandas DataFrame

สมมติว่าเรามี DataFrame แพนด้าต่อไปนี้ซึ่งมีข้อมูลเกี่ยวกับผู้เล่นบาสเกตบอลต่างๆ:

 import pandas as pd

#createDataFrame
df = pd. DataFrame ({' team ': ['A', 'B', 'C', 'D', 'E', 'F', 'G', 'H'],
                   ' points ': [18, 22, 19, 14, 14, 11, 20, 28],
                   ' assists ': [5, 7, 7, 9, 12, 9, 9, 4],
                   ' rebounds ': [11, 8, 10, 6, 6, 5, 9, 12]})

#view DataFrame
print (df)

  team points assists rebounds
0 A 18 5 11
1 B 22 7 8
2 C 19 7 10
3 D 14 9 6
4 E 14 12 6
5 F 11 9 5
6 G 20 9 9
7:28 4 12

เราสามารถใช้ไวยากรณ์ต่อไปนี้เพื่อคำนวณสรุปตัวเลขห้าตัวสำหรับตัวแปรตัวเลขแต่ละตัวใน DataFrame:

 #calculate five number summary for each numeric variable
df. describe (). loc [[' min ', '25 % ', '50 % ', '75% ', ' max ']]

      points assists rebounds
min 11.0 4.0 5.00
25% 14.0 6.5 6.00
50% 18.5 8.0 8.50
75% 20.5 9.0 10.25
max 28.0 12.0 12.00

ต่อไปนี้เป็นวิธีการตีความผลลัพธ์ของตัวแปร จุด :

  • ค่าต่ำสุดคือ 11
  • ค่าที่เปอร์เซ็นไทล์ที่ 25 คือ 14
  • ค่าเปอร์เซ็นไทล์ที่ 50 คือ 18.5
  • ค่าเปอร์เซ็นไทล์ที่ 75 คือ 20.5
  • ค่าสูงสุดคือ 28

เราสามารถตีความค่าของตัวแปร help และ rebound ได้ ในลักษณะเดียวกัน

หากคุณต้องการคำนวณสรุปตัวเลขห้าตัวสำหรับตัวแปรเฉพาะใน DataFrame คุณสามารถใช้ไวยากรณ์ต่อไปนี้:

 #calculate five number summary for the points variable
df[' points ']. describe (). loc [[' min ', '25 % ', '50 % ', '75% ', ' max ']]

min 11.0
25% 14.0
50% 18.5
75% 20.5
max 28.0
Name: points, dtype: float64

ตอนนี้เอาต์พุตจะแสดงข้อมูลสรุปห้าหลักสำหรับตัวแปร คะแนน เท่านั้น

แหล่งข้อมูลเพิ่มเติม

บทช่วยสอนต่อไปนี้จะอธิบายวิธีดำเนินการงานแพนด้าทั่วไปอื่นๆ:

Pandas: วิธีรับจำนวนความถี่ของค่าในคอลัมน์
นุ่น: วิธีคำนวณค่าเฉลี่ยต่อกลุ่ม
นุ่น: วิธีคำนวณค่ามัธยฐานตามกลุ่ม

เพิ่มความคิดเห็น

อีเมลของคุณจะไม่แสดงให้คนอื่นเห็น ช่องข้อมูลจำเป็นถูกทำเครื่องหมาย *