วิธีการคำนวณผลสรุปของตัวเลขห้าตัวใน r (พร้อมตัวอย่าง)
การสรุปห้าหลัก เป็นวิธีการสรุปชุดข้อมูลโดยใช้ค่าห้าค่าต่อไปนี้:
- ขั้นต่ำ
- ควอไทล์แรก
- ค่ามัธยฐาน
- ควอร์ไทล์ที่สาม
- สูงสุด
สรุปตัวเลขห้าตัวมีประโยชน์เพราะเป็นการสรุปการกระจายข้อมูลโดยย่อดังนี้
- มันบอกเราว่า ค่ามัธยฐาน อยู่ที่ไหน โดยใช้ค่ามัธยฐาน
- มันบอกเราถึงการกระจายตัวของข้อมูลโดยใช้ควอไทล์ที่หนึ่งและสาม
- มันบอกเราถึงช่วงของข้อมูลโดยใช้ค่าต่ำสุดและสูงสุด
วิธีที่ง่ายที่สุดในการคำนวณสรุปตัวเลขห้าตัวของชุดข้อมูลใน R คือการใช้ฟังก์ชัน fivenum() จากฐาน R:
fivenum(data)
ตัวอย่างต่อไปนี้แสดงวิธีใช้ไวยากรณ์นี้ในทางปฏิบัติ
ตัวอย่างที่ 1: สรุปตัวเลขห้าตัวของเวกเตอร์
รหัสต่อไปนี้แสดงวิธีคำนวณสรุปตัวเลขห้าตัวของเวกเตอร์ตัวเลขใน R:
#define numeric vector data <- c(4, 6, 6, 7, 8, 9, 12, 13, 14, 15, 15, 18, 22) #calculate five number summary of data fivenum(data) [1] 4 7 12 15 22
จากผลลัพธ์เราจะเห็นได้ว่า:
- ขั้นต่ำ: 4
- ควอไทล์ที่หนึ่ง: 7
- ค่ามัธยฐาน: 12
- ควอไทล์ที่สาม: 15
- สูงสุด: 22
เราสามารถเห็นภาพสรุปห้าหลักได้อย่างรวดเร็วโดยสร้าง boxplot:
boxplot(data) [1] 4 7 12 15 22
ต่อไปนี้เป็นวิธีตีความ Boxplot:
- เส้นที่ด้านล่างของกราฟแสดงถึงค่าต่ำสุด ( 4 )
- เส้นที่ด้านล่างของกล่องแสดงถึงควอร์ไทล์แรก ( 7 )
- เส้นตรงกลางช่องแสดงถึงค่ามัธยฐาน ( 12 )
- เส้นที่ด้านบนของกล่องแสดงถึงควอไทล์ที่สาม ( 15 )
- เส้นที่ด้านบนของกราฟแสดงถึงค่าสูงสุด ( 22 )
ตัวอย่างที่ 2: สรุปห้าหลักของคอลัมน์ในกรอบข้อมูล
รหัสต่อไปนี้แสดงวิธีคำนวณสรุปห้าหลักของคอลัมน์เฉพาะในกรอบข้อมูล:
#create data frame df <- data. frame (team=c('A', 'B', 'C', 'D', 'E', 'F', 'G', 'H'), points=c(99, 90, 86, 88, 95, 87, 85, 89), assists=c(33, 28, 31, 39, 34, 30, 29, 25), rebounds=c(30, 28, 24, 24, 28, 30, 31, 35)) #calculate five number summary of points column fivenum(df$points) [1] 85.0 86.5 88.5 92.5 99.0
ตัวอย่างที่ 3: สรุปห้าหลักของหลายคอลัมน์
รหัสต่อไปนี้แสดงวิธีใช้ฟังก์ชัน sapply() เพื่อคำนวณผลสรุปห้าหลักของหลายคอลัมน์ในกรอบข้อมูลพร้อมกัน:
#create data frame df <- data. frame (team=c('A', 'B', 'C', 'D', 'E', 'F', 'G', 'H'), points=c(99, 90, 86, 88, 95, 87, 85, 89), assists=c(33, 28, 31, 39, 34, 30, 29, 25), rebounds=c(30, 28, 24, 24, 28, 30, 31, 35)) #calculate five number summary of points, assists, and rebounds column sapply(df[c(' points ', ' assists ', ' rebounds ')], fivenum) points assists rebounds [1,] 85.0 25.0 24.0 [2,] 86.5 28.5 26.0 [3,] 88.5 30.5 29.0 [4,] 92.5 33.5 30.5 [5,] 99.0 39.0 35.0
ที่เกี่ยวข้อง: คำแนะนำในการใช้ (), lapply (), sapply () และ tapply () ใน R
แหล่งข้อมูลเพิ่มเติม
วิธีสร้างตารางสรุปใน R
วิธีค้นหาช่วงใน R
วิธีลบค่าผิดปกติใน R