วิธีค้นหาค่าผิดปกติโดยใช้พิสัยระหว่างควอไทล์


ค่าผิดปกติ คือ การสังเกต ที่อยู่ห่างจากค่าอื่นๆ ในชุดข้อมูลอย่างผิดปกติ ค่าผิดปกติอาจเป็นปัญหาได้เนื่องจากอาจส่งผลต่อผลลัพธ์ของการวิเคราะห์

วิธีทั่วไปในการตรวจหาค่าผิดปกติในชุดข้อมูลคือการใช้ ช่วงระหว่างควอไทล์

ช่วงระหว่างควอไทล์ ซึ่งมักเรียกสั้น ๆ ว่า IQR คือความแตกต่างระหว่างเปอร์เซ็นไทล์ที่ 25 (Q1) และเปอร์เซ็นไทล์ที่ 75 (Q3) ในชุดข้อมูล โดยจะวัดการกระจายของค่าเฉลี่ย 50% ของค่า

วิธีที่ได้รับความนิยมคือการประกาศการสังเกตว่าเป็นค่าผิดปกติหากมีค่าสูงกว่า IQR 1.5 เท่าหรือต่ำกว่า IQR 1.5 เท่า

การค้นหาค่าผิดปกติด้วย IQR

บทช่วยสอนนี้ให้ตัวอย่างทีละขั้นตอนของวิธีค้นหาค่าผิดปกติในชุดข้อมูลโดยใช้วิธีนี้

ขั้นตอนที่ 1: สร้างข้อมูล

สมมติว่าเรามีชุดข้อมูลต่อไปนี้:

ขั้นตอนที่ 2: ระบุควอร์ไทล์ที่หนึ่งและสาม

ควอไทล์แรกกลายเป็น 5 และควอไทล์ที่สามกลายเป็น 20.75

ดังนั้น ช่วงระหว่างควอไทล์จึงกลายเป็น 20.75 -5 = 15.75

ขั้นตอนที่ 3: ค้นหาขีดจำกัดล่างและบน

ขีดจำกัดล่างมีการคำนวณดังนี้:

ขีดจำกัดล่าง = Q1 – 1.5*IQR = 5 – 1.5*15.75 = -18.625

และขีดจำกัดบนมีการคำนวณดังนี้:

ขีดจำกัดบน = Q3 + 1.5*IQR = 20.75 + 1.5*15.75 = 44.375

การค้นหาค่าผิดปกติด้วยวิธี IQR

ขั้นตอนที่ 4: ระบุค่าผิดปกติ

การสังเกตเดียวในชุดข้อมูลที่มีค่าต่ำกว่าขีดจำกัดล่างหรือสูงกว่าขีดจำกัดบนคือ 46 นี่จึงเป็นค่าผิดปกติเพียงค่าเดียวในชุดข้อมูลนี้

ตัวอย่างการค้นหาค่าผิดปกติที่มีพิสัยระหว่างควอไทล์

หมายเหตุ: คุณสามารถใช้เครื่องคำนวณขอบเขตค่าผิดปกตินี้เพื่อค้นหาขอบเขตบนและล่างของค่าผิดปกติในชุดข้อมูลที่กำหนดได้โดยอัตโนมัติ

วิธีค้นหาค่าผิดปกติในทางปฏิบัติ

บทช่วยสอนต่อไปนี้จะอธิบายวิธีค้นหาค่าผิดปกติโดยใช้ช่วงระหว่างควอไทล์ในซอฟต์แวร์ทางสถิติต่างๆ

วิธีค้นหาค่าผิดปกติใน Excel
วิธีค้นหาค่าผิดปกติใน R
วิธีค้นหาค่าผิดปกติใน Python
วิธีค้นหาค่าผิดปกติใน SPSS

เพิ่มความคิดเห็น

อีเมลของคุณจะไม่แสดงให้คนอื่นเห็น ช่องข้อมูลจำเป็นถูกทำเครื่องหมาย *