วิธีการคำนวณผลสรุปของตัวเลขห้าตัวใน r (พร้อมตัวอย่าง)


การสรุปห้าหลัก เป็นวิธีการสรุปชุดข้อมูลโดยใช้ค่าห้าค่าต่อไปนี้:

  • ขั้นต่ำ
  • ควอไทล์แรก
  • ค่ามัธยฐาน
  • ควอร์ไทล์ที่สาม
  • สูงสุด

สรุปตัวเลขห้าตัวมีประโยชน์เพราะเป็นการสรุปการกระจายข้อมูลโดยย่อดังนี้

  • มันบอกเราว่า ค่ามัธยฐาน อยู่ที่ไหน โดยใช้ค่ามัธยฐาน
  • มันบอกเราถึงการกระจายตัวของข้อมูลโดยใช้ควอไทล์ที่หนึ่งและสาม
  • มันบอกเราถึงช่วงของข้อมูลโดยใช้ค่าต่ำสุดและสูงสุด

วิธีที่ง่ายที่สุดในการคำนวณสรุปตัวเลขห้าตัวของชุดข้อมูลใน R คือการใช้ฟังก์ชัน fivenum() จากฐาน R:

 fivenum(data)

ตัวอย่างต่อไปนี้แสดงวิธีใช้ไวยากรณ์นี้ในทางปฏิบัติ

ตัวอย่างที่ 1: สรุปตัวเลขห้าตัวของเวกเตอร์

รหัสต่อไปนี้แสดงวิธีคำนวณสรุปตัวเลขห้าตัวของเวกเตอร์ตัวเลขใน R:

 #define numeric vector
data <- c(4, 6, 6, 7, 8, 9, 12, 13, 14, 15, 15, 18, 22)

#calculate five number summary of data
fivenum(data)

[1] 4 7 12 15 22

จากผลลัพธ์เราจะเห็นได้ว่า:

  • ขั้นต่ำ: 4
  • ควอไทล์ที่หนึ่ง: 7
  • ค่ามัธยฐาน: 12
  • ควอไทล์ที่สาม: 15
  • สูงสุด: 22

เราสามารถเห็นภาพสรุปห้าหลักได้อย่างรวดเร็วโดยสร้าง boxplot:

 boxplot(data)

[1] 4 7 12 15 22 

ต่อไปนี้เป็นวิธีตีความ Boxplot:

  • เส้นที่ด้านล่างของกราฟแสดงถึงค่าต่ำสุด ( 4 )
  • เส้นที่ด้านล่างของกล่องแสดงถึงควอร์ไทล์แรก ( 7 )
  • เส้นตรงกลางช่องแสดงถึงค่ามัธยฐาน ( 12 )
  • เส้นที่ด้านบนของกล่องแสดงถึงควอไทล์ที่สาม ( 15 )
  • เส้นที่ด้านบนของกราฟแสดงถึงค่าสูงสุด ( 22 )

ตัวอย่างที่ 2: สรุปห้าหลักของคอลัมน์ในกรอบข้อมูล

รหัสต่อไปนี้แสดงวิธีคำนวณสรุปห้าหลักของคอลัมน์เฉพาะในกรอบข้อมูล:

 #create data frame
df <- data. frame (team=c('A', 'B', 'C', 'D', 'E', 'F', 'G', 'H'),
                 points=c(99, 90, 86, 88, 95, 87, 85, 89),
                 assists=c(33, 28, 31, 39, 34, 30, 29, 25),
                 rebounds=c(30, 28, 24, 24, 28, 30, 31, 35))

#calculate five number summary of points column
fivenum(df$points)

[1] 85.0 86.5 88.5 92.5 99.0

ตัวอย่างที่ 3: สรุปห้าหลักของหลายคอลัมน์

รหัสต่อไปนี้แสดงวิธีใช้ฟังก์ชัน sapply() เพื่อคำนวณผลสรุปห้าหลักของหลายคอลัมน์ในกรอบข้อมูลพร้อมกัน:

 #create data frame
df <- data. frame (team=c('A', 'B', 'C', 'D', 'E', 'F', 'G', 'H'),
                 points=c(99, 90, 86, 88, 95, 87, 85, 89),
                 assists=c(33, 28, 31, 39, 34, 30, 29, 25),
                 rebounds=c(30, 28, 24, 24, 28, 30, 31, 35))

#calculate five number summary of points, assists, and rebounds column
sapply(df[c(' points ', ' assists ', ' rebounds ')], fivenum)

     points assists rebounds
[1,] 85.0 25.0 24.0
[2,] 86.5 28.5 26.0
[3,] 88.5 30.5 29.0
[4,] 92.5 33.5 30.5
[5,] 99.0 39.0 35.0

ที่เกี่ยวข้อง: คำแนะนำในการใช้ (), lapply (), sapply () และ tapply () ใน R

แหล่งข้อมูลเพิ่มเติม

วิธีสร้างตารางสรุปใน R
วิธีค้นหาช่วงใน R
วิธีลบค่าผิดปกติใน R

เพิ่มความคิดเห็น

อีเมลของคุณจะไม่แสดงให้คนอื่นเห็น ช่องข้อมูลจำเป็นถูกทำเครื่องหมาย *