ค่าผิดปกติ (ค่าผิดปกติ)

บทความนี้จะอธิบายว่าค่าผิดปกติคืออะไรและคำนวณอย่างไร นอกจากนี้ คุณยังสามารถคำนวณค่าผิดปกติสำหรับตัวอย่างข้อมูลใดๆ ได้ด้วยเครื่องคิดเลขออนไลน์

ค่าผิดปกติคืออะไร?

ในสถิติ ค่าผิดปกติ หรือที่เรียกว่า ค่าผิดปกติ หรือ ค่าผิดปกติ เป็นค่าที่แตกต่างอย่างมีนัยสำคัญจากส่วนที่เหลือของชุดข้อมูล กล่าวอีกนัยหนึ่ง ค่าผิดปกติคือค่าที่ผิดปกติซึ่งแตกต่างอย่างมากจากค่าที่เหลือในกลุ่มตัวอย่าง

การระบุค่าผิดปกติในตัวอย่างเป็นสิ่งสำคัญ เนื่องจากอาจส่งผลกระทบอย่างมีนัยสำคัญต่อการคำนวณการวัดทางสถิติ

ตัวอย่างเช่น หากเรามีชุดข้อมูล [1, 3, 5, 2, 79, 4, 8, 6] ตัวเลข 79 ถือเป็นค่าผิดปกติอย่างชัดเจน เนื่องจากมูลค่าของมันสูงกว่าข้อมูลที่เหลืออย่างมาก ในกรณีนี้ ค่าเฉลี่ยรวมค่าผิดปกติคือ 13.5 ในขณะที่ค่าเฉลี่ยที่ไม่มีค่าผิดปกติจะเป็น 4.14 อย่างที่คุณเห็น ค่าผิดปกติเพียงค่าเดียวมีอิทธิพลต่อผลลัพธ์ของการวัดทางสถิติอย่างมีนัยสำคัญอยู่แล้ว

 1, \ 3, \ 5, \ 2, \ 79, \ 4, \ 8, \ 6 \quad \color{orange}\bm{\longrightarrow}\color{black}\quad \text{Valor at\'ipico: } 79

โดยทั่วไป ค่าผิดปกติจะแยกแยะได้ง่ายใน Scatterplot เนื่องจากถูกแยกออกจากข้อมูลที่เหลือ ดูแผนภาพกระจายต่อไปนี้ ค่าผิดปกติจะแยกออกจากค่าที่เหลืออย่างมาก:

แผนภูมิกระจายของค่าผิดปกติหรืออื่นๆ

👉 คุณสามารถใช้เครื่องคิดเลขด้านล่างเพื่อค้นหาค่าผิดปกติของชุดข้อมูลใดก็ได้

วิธีการคำนวณค่าผิดปกติ

ในการคำนวณค่าผิดปกติจากตัวอย่างข้อมูล ต้องปฏิบัติตามขั้นตอนต่อไปนี้:

  1. คำนวณควอไทล์ของชุดข้อมูล
  2. คำนวณช่วงระหว่างควอไทล์ของข้อมูล
  3. ค่าผิดปกติ (ค่าผิดปกติ) จะถือเป็นค่าที่ตรงตามเงื่อนไขข้อใดข้อหนึ่งต่อไปนี้:

ใน boxplot ต่อไปนี้ คุณสามารถเห็นค่าผิดปกติสองตัวตามเกณฑ์นี้ที่แสดงเป็นกราฟิก:

ค่าผิดปกติของ boxplot

หมายเหตุ: โปรดทราบว่ามีหลายเกณฑ์ในการกำหนดขีดจำกัดที่เกินกว่าข้อมูลที่ถือว่าเป็นค่าผิดปกติ ในบทความนี้ เกณฑ์การทดสอบ Tukey ถูกนำมาใช้เป็นข้อมูลอ้างอิง เนื่องจากเป็นเกณฑ์ที่ใช้มากที่สุด

ตัวอย่างของค่าผิดปกติ

เมื่อพิจารณาถึงคำจำกัดความของค่าผิดปกติ ในส่วนนี้ เราจะดูตัวอย่างเชิงปฏิบัติของวิธีการระบุค่าผิดปกติในชุดข้อมูล

  • คำนวณค่าผิดปกติหรือค่าผิดปกติจากชุดข้อมูลทางสถิติต่อไปนี้

ขั้นแรก เราคำนวณสามควอไทล์ของชุดข้อมูล:

Q_1=4,06

Q_2=4,38

Q_3=4,66

เมื่อเราหาสามควอร์ไทล์ได้แล้ว เราจะหาพิสัยระหว่างควอไทล์ด้วยการลบควอร์ไทล์ 3 ลบควอไทล์ 1:

IQR=Q_3-Q_1=4,66-4,06=0,6

และตอนนี้เราคำนวณขีดจำกัดที่กำหนดโดยค่าผิดปกติ ในการดำเนินการนี้ เราใช้สูตรที่อธิบายไว้ในส่วนด้านบน:

Q_1-1,5\cdot IQR=4,06-1,5\cdot 0,6=3,16

Q_3+1,5\cdot IQR=4,66+1,5\cdot 0,6=5,56

ดังนั้นหากค่าใดค่าหนึ่งน้อยกว่า 3.16 ถือเป็นค่าผิดปกติ ในทำนองเดียวกัน หากค่ามากกว่า 5.56 ก็ถือเป็นค่าผิดปกติเช่นกัน

โดยสรุป ในกรณีนี้ เรามีค่าสุดขั้วสองค่า เนื่องจาก 3.02 น้อยกว่า 3.16 และ 5.71 มากกว่า 5.56

\text{Valores at\'ipicos} =\Bigl\{3,02 \ ; \ 5,71\Bigr\}

เครื่องคิดเลขค่าผิดปกติ

ป้อนข้อมูลทางสถิติลงในเครื่องคิดเลขต่อไปนี้เพื่อคำนวณค่าผิดปกติ (ถ้ามี) ข้อมูลต้องคั่นด้วยช่องว่างและป้อนโดยใช้จุดเป็นตัวคั่นทศนิยม

สาเหตุของค่าผิดปกติ

มีสาเหตุที่เป็นไปได้หลายประการที่ทำให้เกิดค่าผิดปกติ โดยสาเหตุที่พบบ่อยที่สุดคือ:

  • อุปกรณ์ที่ใช้ในการวัดพังหรือเกิดอุบัติเหตุ
  • ส่วนที่วัดมีข้อบกพร่องเนื่องจากสาเหตุที่ผิดปกติ
  • เกิดข้อผิดพลาดในการส่งหรือถอดความข้อมูล
  • มีข้อผิดพลาดของมนุษย์ ไม่ว่าจะใช้มาตรการป้องกันอย่างไร ข้อผิดพลาดของมนุษย์ก็เป็นสิ่งที่หลีกเลี่ยงไม่ได้โดยสิ้นเชิง ดังนั้น ค่าที่ผิดปกติจึงอาจยังคงอยู่ได้

นี่เป็นสาเหตุที่พบบ่อยที่สุด แต่สาเหตุที่ชัดเจนอาจเป็นอะไรก็ได้ ในทำนองเดียวกัน จะต้องคำนึงว่าเมื่อมีการศึกษาทางสถิติโดยมีข้อสังเกตมากมาย เป็นเรื่องปกติที่ค่าผิดปกติจะปรากฏขึ้น

จะทำอย่างไรกับค่าผิดปกติ

คำถามทั่วไปเมื่อเราพบค่าผิดปกติคือเราควรทำอย่างไรกับมัน ควรลบค่าผิดปกติออกจากตัวอย่างหรือไม่

เชื่อกันว่าค่าผิดปกติควรถูกกำจัดออกไปเสมอ เนื่องจากเป็นข้อมูลที่ไม่เหมือนกับข้อมูลที่เหลือในชุดข้อมูล อย่างไรก็ตาม แม้ว่าค่าผิดปกติจะส่งผลกระทบอย่างมากต่อผลลัพธ์ของมาตรการทางสถิติบางอย่าง แต่นั่นไม่ได้หมายความว่าค่าผิดปกติควรถูกกำจัดออกไปเสมอไป

โดยทั่วไป ควรลบค่าผิดปกติออกก็ต่อเมื่อเรารู้ว่าสาเหตุของความผิดปกตินั้นสมเหตุสมผลอย่างแท้จริง ดังนั้น ค่าผิดปกติเหล่านี้จึงเป็นข้อสังเกตที่ไม่ตรงกับสิ่งที่กำลังศึกษาอยู่

สิ่งนี้มีความสำคัญอย่างยิ่งในขนาดตัวอย่างขนาดเล็ก เนื่องจากค่าที่มากเกินไปจะส่งผลต่อการวัดทางสถิติมากกว่า

ตัวอย่างเช่น หากวัดความยาวของชิ้นส่วนของผลิตภัณฑ์เพื่อดำเนินการควบคุมคุณภาพ ตามตรรกะ หากผลิตภัณฑ์ประเภทอื่นปรากฏขึ้นอย่างกะทันหันและวัดชิ้นส่วนเดียวกัน ค่าที่วัดได้จะแตกต่างจากครั้งก่อนมากและอาจจะ เป็นคนนอกรีต ในกรณีนี้ ค่าผิดปกติอาจถูกตัดออกเนื่องจากทราบสาเหตุของมัน และเป็นที่ทราบกันว่าข้อมูลที่วัดได้ไม่ได้เป็นส่วนหนึ่งของประชากรที่ต้องการวิเคราะห์

เพิ่มความคิดเห็น

อีเมลของคุณจะไม่แสดงให้คนอื่นเห็น ช่องข้อมูลจำเป็นถูกทำเครื่องหมาย *