วิธีการคำนวณเดซิลใน r (พร้อมตัวอย่าง)


ในทางสถิติ เดซิล คือตัวเลขที่แบ่งชุดข้อมูลออกเป็นสิบกลุ่มซึ่งมีความถี่เท่ากัน

เดไซล์แรกคือจุดที่ 10% ของค่าข้อมูลทั้งหมดอยู่ต่ำกว่า เดไซล์ที่สองคือจุดที่ 20% ของค่าข้อมูลทั้งหมดอยู่ต่ำกว่านี้ไปเรื่อยๆ

เราสามารถใช้ไวยากรณ์ต่อไปนี้เพื่อคำนวณเดซิลของชุดข้อมูลใน R:

 quantile(data, probs = seq (.1, .9, by = .1 ))

ตัวอย่างต่อไปนี้แสดงวิธีใช้ฟังก์ชันนี้ในทางปฏิบัติ

ตัวอย่าง: คำนวณ deciles ใน R

รหัสต่อไปนี้แสดงวิธีสร้างชุดข้อมูลปลอมที่มีค่า 20 ค่า จากนั้นคำนวณค่าเดไซล์ของชุดข้อมูล:

 #create dataset
data <- c(56, 58, 64, 67, 68, 73, 78, 83, 84, 88,
          89, 90, 91, 92, 93, 93, 94, 95, 97, 99)

#calculate deciles of dataset
quantile(data, probs = seq (.1, .9, by = .1 ))

 10% 20% 30% 40% 50% 60% 70% 80% 90% 
63.4 67.8 76.5 83.6 88.5 90.4 92.3 93.2 95.2 

วิธีการตีความ deciles มีดังนี้:

  • 10% ของค่าข้อมูลทั้งหมดน้อยกว่า 63.4
  • 20% ของค่าข้อมูลทั้งหมดน้อยกว่า 67.8
  • 30% ของค่าข้อมูลทั้งหมดน้อยกว่า 76.5
  • 40% ของค่าข้อมูลทั้งหมดน้อยกว่า 83.6
  • 50% ของค่าข้อมูลทั้งหมดน้อยกว่า 88.5
  • 60% ของค่าข้อมูลทั้งหมดน้อยกว่า 90.4
  • 70% ของค่าข้อมูลทั้งหมดน้อยกว่า 92.3
  • 80% ของค่าข้อมูลทั้งหมดน้อยกว่า 93.2
  • 90% ของค่าข้อมูลทั้งหมดน้อยกว่า 95.2

ควรสังเกตว่าค่าที่เปอร์เซ็นไทล์ที่ 50 เท่ากับค่ามัธยฐานของชุดข้อมูล

ตัวอย่าง: การใส่ค่าเป็นเดซิลใน R

ในการวางค่าข้อมูลแต่ละค่าในรูปแบบเดไซล์ เราสามารถใช้ฟังก์ชัน ntile(x, ngroups) จากแพ็คเกจ dplyr ใน R

ต่อไปนี้คือวิธีใช้ฟังก์ชันนี้สำหรับชุดข้อมูลที่เราสร้างขึ้นในตัวอย่างก่อนหน้านี้:

 library (dplyr)

#create dataset
data <- data.frame(values=c(56, 58, 64, 67, 68, 73, 78, 83, 84, 88,
                            89, 90, 91, 92, 93, 93, 94, 95, 97, 99))

#place each value into a decile
data$decile <- ntile(data, 10)

#viewdata
data

   values decile
1 56 1
2 58 1
3 64 2
4 67 2
5 68 3
6 73 3
7 78 4
8 83 4
9 84 5
10 88 5
11 89 6
12 90 6
13 91 7
14 92 7
15 93 8
16 93 8
17 94 9
18 95 9
19 97 10
20 99 10

วิธีการตีความผลลัพธ์มีดังนี้:

  • ค่าข้อมูล 56 อยู่ระหว่างเปอร์เซ็นไทล์ 0% ถึง 10% ดังนั้นจึงอยู่ในเดไซล์แรก
  • ค่าข้อมูล 58 อยู่ระหว่างเปอร์เซ็นไทล์ 0% ถึง 10% ดังนั้นจึงอยู่ในเดไซล์แรก
  • ค่าข้อมูล 64 อยู่ระหว่างเปอร์เซ็นไทล์ 10% ถึง 20% ดังนั้นจึงอยู่ในเดซิลที่สอง
  • ค่าข้อมูล 67 อยู่ระหว่างเปอร์เซ็นไทล์ 10% ถึง 20% ดังนั้นจึงอยู่ในเดซิลที่สอง
  • ค่าข้อมูล 68 อยู่ระหว่างเปอร์เซ็นไทล์ 20% ถึง 30% ดังนั้นจึงอยู่ในเดซิลที่สาม

และอื่นๆ

แหล่งข้อมูลเพิ่มเติม

วิธีการคำนวณเปอร์เซ็นไทล์ใน R
วิธีการคำนวณควอไทล์ใน R
วิธีสร้างตารางความถี่ใน R

เพิ่มความคิดเห็น

อีเมลของคุณจะไม่แสดงให้คนอื่นเห็น ช่องข้อมูลจำเป็นถูกทำเครื่องหมาย *