การทดสอบ q ของ dixon: คำจำกัดความ + ตัวอย่าง
การทดสอบ Q ของ Dixon หรือที่เรียกกันทั่วไปว่า Q Test เป็นการทดสอบทางสถิติที่ใช้ในการตรวจจับค่าผิดปกติในชุดข้อมูล
สถิติการทดสอบ Q คือ:
ถาม = |x ก – xb | /ร
โดยที่ x a คือค่าผิดปกติที่น่าสงสัย x b คือจุดข้อมูลที่ใกล้เคียงที่สุดกับ x a และ R คือช่วงของชุดข้อมูล ในกรณีส่วนใหญ่ x a คือค่าสูงสุดของชุดข้อมูล แต่ก็อาจเป็นค่าต่ำสุดได้เช่นกัน
สิ่งสำคัญคือต้องทราบว่าโดยปกติแล้วการทดสอบ Q จะดำเนินการกับชุดข้อมูลขนาดเล็ก และถือว่าข้อมูลมีการกระจายตามปกติ สิ่งสำคัญที่ควรทราบคือควรทำการทดสอบ Q เพียงครั้งเดียวสำหรับชุดข้อมูลที่กำหนด
วิธีทำการทดสอบ Dixon Q ด้วยมือ
สมมติว่าเรามีชุดข้อมูลต่อไปนี้:
1, 3, 5, 7, 8, 9, 13, 25
เราสามารถปฏิบัติตาม ขั้นตอนการทดสอบสมมติฐานห้าขั้นตอนมาตรฐาน เพื่อทำการทดสอบ Q ของ Dixon ด้วยตนเอง เพื่อพิจารณาว่าค่าสูงสุดในชุดข้อมูลนี้มีค่าผิดปกติหรือไม่:
ขั้นตอนที่ 1 ระบุสมมติฐาน
สมมติฐานว่าง (H0): ค่าสูงสุดไม่ใช่ค่าผิดปกติ
สมมติฐานทางเลือก: (ฮา): ค่าสูงสุด คือ ค่าผิดปกติ
ขั้นตอนที่ 2 กำหนดระดับนัยสำคัญที่จะใช้
ตัวเลือกทั่วไปคือ 0.1, 0.05 และ 0.01 เราจะใช้ระดับนัยสำคัญ 0.05 สำหรับตัวอย่างนี้
ขั้นตอนที่ 3 ค้นหาสถิติการทดสอบ
ถาม = |x ก – xb | /ร
ในกรณีนี้ ค่าสูงสุดของเราคือ x a = 25 ค่าที่ใกล้เคียงที่สุดถัดไปคือ x b = 13 และพิสัยของเราคือ R = 25 – 1 = 24
ดังนั้น Q = |25 – 13| / 24 = 0.5 .
จากนั้น เราสามารถเปรียบเทียบสถิติการทดสอบนี้กับค่าการทดสอบ Q วิกฤต ซึ่งแสดงไว้ด้านล่างสำหรับขนาดตัวอย่างที่แตกต่างกัน (n) และระดับความเชื่อมั่น:
n 90% 95% 99%
3 0.941 0.970 0.994
4 0.765 0.829 0.926
5 0.642 0.710 0.821
6 0.560 0.625 0.740
7 0.507 0.568 0.680
8 0.468 0.526 0.634
9 0.437 0.493 0.598
10 0.412 0.466 0.568
11 0.392 0.444 0.542
12 0.376 0.426 0.522
13 0.361 0.410 0.503
14 0.349 0.396 0.488
15 0.338 0.384 0.475
16 0.329 0.374 0.463
17 0.320 0.365 0.452
18 0.313 0.356 0.442
19 0.306 0.349 0.433
20 0.300 0.342 0.425
21 0.295 0.337 0.418
22 0.290 0.331 0.411
23 0.285 0.326 0.404
24 0.281 0.321 0.399
25 0.277 0.317 0.393
26 0.273 0.312 0.388
27 0.269 0.308 0.384
28 0.266 0.305 0.380
29 0.263 0.301 0.376
30 0.260 0.290 0.372
ค่าวิกฤตสำหรับกลุ่มตัวอย่าง 8 และระดับความเชื่อมั่น 95% คือ 0.526
ขั้นตอนที่ 4 ปฏิเสธหรือไม่ปฏิเสธสมมติฐานว่าง
เนื่องจากสถิติการทดสอบของเรา Q (0.5) น้อยกว่าค่าวิกฤต (0.526) เราจึงล้มเหลวในการปฏิเสธสมมติฐานว่าง
ขั้นตอนที่ 5 ตีความผลลัพธ์
เนื่องจากเราไม่สามารถปฏิเสธสมมติฐานว่างได้ เราจึงสรุปได้ว่าค่าสูงสุด ที่ 25 ไม่ใช่ค่าผิดปกติในชุดข้อมูลนี้
วิธีทำการทดสอบ Q ของ Dixon ใน R
ในการดำเนินการทดสอบ Q ของ Dixon บนชุดข้อมูลเดียวกันใน R เราสามารถใช้ฟังก์ชัน dixon.test() จากไลบรารี ค่าผิดปกติ ซึ่งใช้ไวยากรณ์ต่อไปนี้:
dixon.test (ข้อมูล, ประเภท = 10, ตรงข้าม = FALSE)
- ข้อมูล: เวกเตอร์ตัวเลขของค่าข้อมูล
- type: ประเภทของสูตรที่จะใช้ทำการทดสอบทางสถิติ Q ตั้งค่าเป็น 10 เพื่อใช้สูตรที่อธิบายไว้ก่อนหน้านี้
- ตรงกันข้าม: ถ้าเป็น FALSE การทดสอบจะพิจารณาว่าค่าสูงสุดคือค่าผิดปกติหรือไม่ หากเป็น TRUE การทดสอบจะพิจารณาว่าค่าต่ำสุดคือค่าผิดปกติหรือไม่ นี่เป็น FALSE โดยค่าเริ่มต้น
หมายเหตุ : ค้นหาเอกสารฉบับเต็มสำหรับ dixon.test() ที่นี่
รหัสต่อไปนี้สาธิตวิธีดำเนินการทดสอบ Q ของ Dixon เพื่อตรวจสอบว่าค่าสูงสุดในชุดข้อมูลเป็นค่าผิดปกติหรือไม่
#load the outliers library library(outliers) #create data data <- c(1, 3, 5, 7, 8, 9, 13, 25) #conduct Dixon's Q Test dixon.test(data, type = 10) # Dixon test for outliers # #data:data #Q = 0.5, p-value = 0.06913 #alternative hypothesis: highest value 25 is an outlier
จากผลลัพธ์เราจะเห็นว่าสถิติการทดสอบคือ Q = 0.5 และค่า p ที่สอดคล้องกันคือ 0.06913 ดังนั้นเราจึงล้มเหลวในการปฏิเสธสมมติฐานว่างที่ระดับนัยสำคัญ 0.05 และสรุปว่า 25 ไม่ใช่ค่าผิดปกติ สิ่งนี้สอดคล้องกับผลลัพธ์ที่เราได้รับด้วยตนเอง