วิธีค้นหาค่าผิดปกติโดยใช้พิสัยระหว่างควอไทล์
ค่าผิดปกติ คือ การสังเกต ที่อยู่ห่างจากค่าอื่นๆ ในชุดข้อมูลอย่างผิดปกติ ค่าผิดปกติอาจเป็นปัญหาได้เนื่องจากอาจส่งผลต่อผลลัพธ์ของการวิเคราะห์
วิธีทั่วไปในการตรวจหาค่าผิดปกติในชุดข้อมูลคือการใช้ ช่วงระหว่างควอไทล์
ช่วงระหว่างควอไทล์ ซึ่งมักเรียกสั้น ๆ ว่า IQR คือความแตกต่างระหว่างเปอร์เซ็นไทล์ที่ 25 (Q1) และเปอร์เซ็นไทล์ที่ 75 (Q3) ในชุดข้อมูล โดยจะวัดการกระจายของค่าเฉลี่ย 50% ของค่า
วิธีที่ได้รับความนิยมคือการประกาศการสังเกตว่าเป็นค่าผิดปกติหากมีค่าสูงกว่า IQR 1.5 เท่าหรือต่ำกว่า IQR 1.5 เท่า
บทช่วยสอนนี้ให้ตัวอย่างทีละขั้นตอนของวิธีค้นหาค่าผิดปกติในชุดข้อมูลโดยใช้วิธีนี้
ขั้นตอนที่ 1: สร้างข้อมูล
สมมติว่าเรามีชุดข้อมูลต่อไปนี้:
ขั้นตอนที่ 2: ระบุควอร์ไทล์ที่หนึ่งและสาม
ควอไทล์แรกกลายเป็น 5 และควอไทล์ที่สามกลายเป็น 20.75
ดังนั้น ช่วงระหว่างควอไทล์จึงกลายเป็น 20.75 -5 = 15.75
ขั้นตอนที่ 3: ค้นหาขีดจำกัดล่างและบน
ขีดจำกัดล่างมีการคำนวณดังนี้:
ขีดจำกัดล่าง = Q1 – 1.5*IQR = 5 – 1.5*15.75 = -18.625
และขีดจำกัดบนมีการคำนวณดังนี้:
ขีดจำกัดบน = Q3 + 1.5*IQR = 20.75 + 1.5*15.75 = 44.375
ขั้นตอนที่ 4: ระบุค่าผิดปกติ
การสังเกตเดียวในชุดข้อมูลที่มีค่าต่ำกว่าขีดจำกัดล่างหรือสูงกว่าขีดจำกัดบนคือ 46 นี่จึงเป็นค่าผิดปกติเพียงค่าเดียวในชุดข้อมูลนี้
หมายเหตุ: คุณสามารถใช้เครื่องคำนวณขอบเขตค่าผิดปกตินี้เพื่อค้นหาขอบเขตบนและล่างของค่าผิดปกติในชุดข้อมูลที่กำหนดได้โดยอัตโนมัติ
วิธีค้นหาค่าผิดปกติในทางปฏิบัติ
บทช่วยสอนต่อไปนี้จะอธิบายวิธีค้นหาค่าผิดปกติโดยใช้ช่วงระหว่างควอไทล์ในซอฟต์แวร์ทางสถิติต่างๆ
วิธีค้นหาค่าผิดปกติใน Excel
วิธีค้นหาค่าผิดปกติใน R
วิธีค้นหาค่าผิดปกติใน Python
วิธีค้นหาค่าผิดปกติใน SPSS