ค่าผิดปกติส่งผลต่อค่าเฉลี่ยอย่างไร
ในสถิติ ค่า เฉลี่ย ของชุดข้อมูลคือค่าเฉลี่ย สิ่งนี้มีประโยชน์ที่จะรู้เพราะมันช่วยให้เราทราบว่า “ศูนย์กลาง” ของชุดข้อมูลอยู่ที่ไหน คำนวณโดยใช้สูตรง่ายๆ:
ค่าเฉลี่ย = (ผลรวมของการสังเกต) / (จำนวนการสังเกต)
ตัวอย่างเช่น สมมติว่าเรามีชุดข้อมูลต่อไปนี้:
[1, 4, 5, 6, 7]
ค่าเฉลี่ยของชุดข้อมูลคือ (1+4+5+6+7) / (5) = 4.6
แม้ว่าค่าเฉลี่ยจะมีประโยชน์และคำนวณได้ง่าย แต่ก็มีข้อเสีย: ค่าผิดปกติอาจได้รับผลกระทบจากค่าผิดปกติ โดยเฉพาะอย่างยิ่ง ยิ่งชุดข้อมูลมีขนาดเล็ก ค่าผิดปกติก็จะส่งผลต่อค่าเฉลี่ยมากขึ้นเท่านั้น
เพื่ออธิบายสิ่งนี้ ให้พิจารณาตัวอย่างคลาสสิกต่อไปนี้:
ผู้ชายสิบคนกำลังนั่งอยู่ในบาร์ รายได้เฉลี่ยของผู้ชาย 10 คนคือ 50,000 ดอลลาร์ ทันใดนั้นก็มีชายคนหนึ่งเดินออกมา และบิล เกตส์ก็เข้ามา ปัจจุบัน รายได้เฉลี่ยของชายทั้ง 10 คนในบาร์อยู่ที่ 40 ล้านดอลลาร์
ตัวอย่างนี้แสดงให้เห็นว่าค่าผิดปกติ (Bill Gates) อาจส่งผลต่อค่าเฉลี่ยอย่างมีนัยสำคัญอย่างไร
ค่าผิดปกติขนาดเล็กและใหญ่
ค่าผิดปกติอาจส่งผลต่อค่าเฉลี่ยโดยมีขนาดเล็กหรือใหญ่ผิดปกติ ในตัวอย่างก่อนหน้านี้ Bill Gates มีรายได้สูงผิดปกติ โดยเฉลี่ยแล้วทำให้เข้าใจผิด
อย่างไรก็ตาม ค่าที่ต่ำผิดปกติอาจส่งผลต่อค่าเฉลี่ยได้เช่นกัน เพื่ออธิบายสิ่งนี้ ให้พิจารณาตัวอย่างต่อไปนี้:
นักเรียนสิบคนเข้าสอบและได้รับเกรดต่อไปนี้:
[0, 88, 90, 92, 94, 95, 95, 96, 97, 99]
คะแนนเฉลี่ยอยู่ที่ 84.6
อย่างไรก็ตาม หากเราลบคะแนน “0” ออกจากชุดข้อมูล คะแนนเฉลี่ยจะกลายเป็น 94
คะแนนที่ต่ำผิดปกติของนักเรียนจะทำให้ค่าเฉลี่ยของชุดข้อมูลทั้งหมดลดลง
ขนาดตัวอย่างและค่าผิดปกติ
ยิ่งชุดข้อมูลมีขนาดเล็กลง ค่าผิดปกติก็จะส่งผลต่อค่าเฉลี่ยมากขึ้นเท่านั้น
ตัวอย่างเช่น สมมติว่าเรามีชุดข้อมูลคะแนนสอบ 100 คะแนน ซึ่งนักเรียนทุกคนได้คะแนนอย่างน้อย 90 หรือสูงกว่า ยกเว้นนักเรียนคนหนึ่งที่ได้คะแนนเป็นศูนย์:
[ 0 , 90, 90, 92, 94, 95, 95, 96, 97, 99, 94, 90, 90, 92, 94, 95, 95, 96, 97, 99, 93, 90, 90, 92, 94 , 95, 95, 96, 97, 99, 93, 90, 90, 92, 94, 95, 95, 96, 97, 99, 93, 90, 90, 92, 94, 95, 95, 96, 97, 99 , 93, 90, 90, 92, 94, 95, 95, 96, 97, 99, 93, 90, 90, 92, 94, 95, 95, 96, 97, 99, 93, 90, 90, 92, 94 , 95, 95, 96, 97, 99, 93, 90, 90, 92, 94, 95, 95, 96, 97, 99, 93, 90, 90, 92, 94, 95, 95, 96, 97, 99 ]
ค่าเฉลี่ยกลายเป็น 93.18 . หากเราลบ “0” ออกจากชุดข้อมูล ค่าเฉลี่ยจะเป็น 94.12 นี่เป็นความแตกต่างที่ค่อนข้างเล็ก นี่แสดงให้เห็นว่าแม้แต่ค่าผิดปกติที่รุนแรงก็มีผลกระทบเพียงเล็กน้อยหากชุดข้อมูลมีขนาดใหญ่เพียงพอ
วิธีจัดการกับค่าผิดปกติ
หากคุณกังวลว่าอาจมีค่าผิดปกติในชุดข้อมูลของคุณ คุณมีหลายทางเลือก:
- ตรวจสอบให้แน่ใจว่าค่าผิดปกติไม่ได้เป็นผลมาจากข้อผิดพลาดในการป้อนข้อมูล บางครั้งบุคคลเพียงแต่กรอกค่าข้อมูลที่ไม่ถูกต้องในขณะที่บันทึกข้อมูล หากมีค่าผิดปกติ ให้ตรวจสอบก่อนว่าค่าที่ป้อนถูกต้องและไม่ใช่ข้อผิดพลาด
- กำหนดค่าใหม่ให้กับค่าผิดปกติ หากค่าผิดปกติกลายเป็นผลลัพธ์ของข้อผิดพลาดในการป้อนข้อมูล คุณสามารถตัดสินใจกำหนดค่าใหม่ให้กับค่าดังกล่าวได้ เช่น ค่า เฉลี่ยหรือค่ามัธยฐาน ของชุดข้อมูล
- ลบค่าผิดปกติออก หากค่านั้นเป็นค่าผิดปกติจริงๆ คุณสามารถเลือกที่จะลบค่านั้นออกได้หากจะมีผลกระทบสำคัญต่อการวิเคราะห์โดยรวมของคุณ เพียงอย่าลืมพูดถึงในรายงานหรือการวิเคราะห์ขั้นสุดท้ายของคุณว่าคุณได้ลบค่าผิดปกติออก
ใช้ค่ามัธยฐาน
อีกวิธีหนึ่งในการค้นหา “ศูนย์กลาง” ของชุดข้อมูลคือการใช้ ค่ามัธยฐาน ซึ่งได้มาจากการเรียงลำดับค่าแต่ละค่าทั้งหมดในชุดข้อมูลจากน้อยไปหามากแล้วค้นหาค่ามัธยฐาน
เนื่องจากวิธีการคำนวณ ค่ามัธยฐานจึงได้รับผลกระทบจากค่าผิดปกติน้อยกว่า และจะจับตำแหน่งศูนย์กลางของการแจกแจงได้ดีกว่าเมื่อมีค่าผิดปกติ
ตัวอย่างเช่น ลองพิจารณากราฟต่อไปนี้ซึ่งแสดงพื้นที่เป็นตารางฟุตของบ้านในละแวกใกล้เคียงหนึ่งๆ:
ค่าเฉลี่ยได้รับอิทธิพลอย่างมากจากบ้านหลังใหญ่มากบางหลัง ในขณะที่ค่ามัธยฐานไม่ได้รับอิทธิพล ดังนั้นค่ามัธยฐานจึงทำงานได้ดีกว่าในการจับภาพพื้นที่เป็นตารางฟุต “ทั่วไป” ของบ้านในละแวกนั้นมากกว่าค่าเฉลี่ย
อ่านเพิ่มเติม:
การวัดแนวโน้มจากส่วนกลาง – ค่าเฉลี่ย ค่ามัธยฐาน และโหมด
การทดสอบ Q ของ Dixon เพื่อตรวจจับค่าผิดปกติ
เครื่องคิดเลขค่าผิดปกติ