ค่าผิดปกติส่งผลต่อค่าเฉลี่ยอย่างไร


ในสถิติ ค่า เฉลี่ย ของชุดข้อมูลคือค่าเฉลี่ย สิ่งนี้มีประโยชน์ที่จะรู้เพราะมันช่วยให้เราทราบว่า “ศูนย์กลาง” ของชุดข้อมูลอยู่ที่ไหน คำนวณโดยใช้สูตรง่ายๆ:

ค่าเฉลี่ย = (ผลรวมของการสังเกต) / (จำนวนการสังเกต)

ตัวอย่างเช่น สมมติว่าเรามีชุดข้อมูลต่อไปนี้:

[1, 4, 5, 6, 7]

ค่าเฉลี่ยของชุดข้อมูลคือ (1+4+5+6+7) / (5) = 4.6

แม้ว่าค่าเฉลี่ยจะมีประโยชน์และคำนวณได้ง่าย แต่ก็มีข้อเสีย: ค่าผิดปกติอาจได้รับผลกระทบจากค่าผิดปกติ โดยเฉพาะอย่างยิ่ง ยิ่งชุดข้อมูลมีขนาดเล็ก ค่าผิดปกติก็จะส่งผลต่อค่าเฉลี่ยมากขึ้นเท่านั้น

เพื่ออธิบายสิ่งนี้ ให้พิจารณาตัวอย่างคลาสสิกต่อไปนี้:

ผู้ชายสิบคนกำลังนั่งอยู่ในบาร์ รายได้เฉลี่ยของผู้ชาย 10 คนคือ 50,000 ดอลลาร์ ทันใดนั้นก็มีชายคนหนึ่งเดินออกมา และบิล เกตส์ก็เข้ามา ปัจจุบัน รายได้เฉลี่ยของชายทั้ง 10 คนในบาร์อยู่ที่ 40 ล้านดอลลาร์

ตัวอย่างนี้แสดงให้เห็นว่าค่าผิดปกติ (Bill Gates) อาจส่งผลต่อค่าเฉลี่ยอย่างมีนัยสำคัญอย่างไร

ค่าผิดปกติขนาดเล็กและใหญ่

ค่าผิดปกติอาจส่งผลต่อค่าเฉลี่ยโดยมีขนาดเล็กหรือใหญ่ผิดปกติ ในตัวอย่างก่อนหน้านี้ Bill Gates มีรายได้สูงผิดปกติ โดยเฉลี่ยแล้วทำให้เข้าใจผิด

อย่างไรก็ตาม ค่าที่ต่ำผิดปกติอาจส่งผลต่อค่าเฉลี่ยได้เช่นกัน เพื่ออธิบายสิ่งนี้ ให้พิจารณาตัวอย่างต่อไปนี้:

นักเรียนสิบคนเข้าสอบและได้รับเกรดต่อไปนี้:

[0, 88, 90, 92, 94, 95, 95, 96, 97, 99]

คะแนนเฉลี่ยอยู่ที่ 84.6

อย่างไรก็ตาม หากเราลบคะแนน “0” ออกจากชุดข้อมูล คะแนนเฉลี่ยจะกลายเป็น 94

คะแนนที่ต่ำผิดปกติของนักเรียนจะทำให้ค่าเฉลี่ยของชุดข้อมูลทั้งหมดลดลง

ขนาดตัวอย่างและค่าผิดปกติ

ยิ่งชุดข้อมูลมีขนาดเล็กลง ค่าผิดปกติก็จะส่งผลต่อค่าเฉลี่ยมากขึ้นเท่านั้น

ตัวอย่างเช่น สมมติว่าเรามีชุดข้อมูลคะแนนสอบ 100 คะแนน ซึ่งนักเรียนทุกคนได้คะแนนอย่างน้อย 90 หรือสูงกว่า ยกเว้นนักเรียนคนหนึ่งที่ได้คะแนนเป็นศูนย์:

[ 0 , 90, 90, 92, 94, 95, 95, 96, 97, 99, 94, 90, 90, 92, 94, 95, 95, 96, 97, 99, 93, 90, 90, 92, 94 , 95, 95, 96, 97, 99, 93, 90, 90, 92, 94, 95, 95, 96, 97, 99, 93, 90, 90, 92, 94, 95, 95, 96, 97, 99 , 93, 90, 90, 92, 94, 95, 95, 96, 97, 99, 93, 90, 90, 92, 94, 95, 95, 96, 97, 99, 93, 90, 90, 92, 94 , 95, 95, 96, 97, 99, 93, 90, 90, 92, 94, 95, 95, 96, 97, 99, 93, 90, 90, 92, 94, 95, 95, 96, 97, 99 ]

ค่าเฉลี่ยกลายเป็น 93.18 . หากเราลบ “0” ออกจากชุดข้อมูล ค่าเฉลี่ยจะเป็น 94.12 นี่เป็นความแตกต่างที่ค่อนข้างเล็ก นี่แสดงให้เห็นว่าแม้แต่ค่าผิดปกติที่รุนแรงก็มีผลกระทบเพียงเล็กน้อยหากชุดข้อมูลมีขนาดใหญ่เพียงพอ

วิธีจัดการกับค่าผิดปกติ

หากคุณกังวลว่าอาจมีค่าผิดปกติในชุดข้อมูลของคุณ คุณมีหลายทางเลือก:

  • ตรวจสอบให้แน่ใจว่าค่าผิดปกติไม่ได้เป็นผลมาจากข้อผิดพลาดในการป้อนข้อมูล บางครั้งบุคคลเพียงแต่กรอกค่าข้อมูลที่ไม่ถูกต้องในขณะที่บันทึกข้อมูล หากมีค่าผิดปกติ ให้ตรวจสอบก่อนว่าค่าที่ป้อนถูกต้องและไม่ใช่ข้อผิดพลาด
  • กำหนดค่าใหม่ให้กับค่าผิดปกติ หากค่าผิดปกติกลายเป็นผลลัพธ์ของข้อผิดพลาดในการป้อนข้อมูล คุณสามารถตัดสินใจกำหนดค่าใหม่ให้กับค่าดังกล่าวได้ เช่น ค่า เฉลี่ยหรือค่ามัธยฐาน ของชุดข้อมูล
  • ลบค่าผิดปกติออก หากค่านั้นเป็นค่าผิดปกติจริงๆ คุณสามารถเลือกที่จะลบค่านั้นออกได้หากจะมีผลกระทบสำคัญต่อการวิเคราะห์โดยรวมของคุณ เพียงอย่าลืมพูดถึงในรายงานหรือการวิเคราะห์ขั้นสุดท้ายของคุณว่าคุณได้ลบค่าผิดปกติออก

ใช้ค่ามัธยฐาน

อีกวิธีหนึ่งในการค้นหา “ศูนย์กลาง” ของชุดข้อมูลคือการใช้ ค่ามัธยฐาน ซึ่งได้มาจากการเรียงลำดับค่าแต่ละค่าทั้งหมดในชุดข้อมูลจากน้อยไปหามากแล้วค้นหาค่ามัธยฐาน

เนื่องจากวิธีการคำนวณ ค่ามัธยฐานจึงได้รับผลกระทบจากค่าผิดปกติน้อยกว่า และจะจับตำแหน่งศูนย์กลางของการแจกแจงได้ดีกว่าเมื่อมีค่าผิดปกติ

ตัวอย่างเช่น ลองพิจารณากราฟต่อไปนี้ซึ่งแสดงพื้นที่เป็นตารางฟุตของบ้านในละแวกใกล้เคียงหนึ่งๆ:

ค่าเฉลี่ยได้รับอิทธิพลอย่างมากจากบ้านหลังใหญ่มากบางหลัง ในขณะที่ค่ามัธยฐานไม่ได้รับอิทธิพล ดังนั้นค่ามัธยฐานจึงทำงานได้ดีกว่าในการจับภาพพื้นที่เป็นตารางฟุต “ทั่วไป” ของบ้านในละแวกนั้นมากกว่าค่าเฉลี่ย

อ่านเพิ่มเติม:

การวัดแนวโน้มจากส่วนกลาง – ค่าเฉลี่ย ค่ามัธยฐาน และโหมด
การทดสอบ Q ของ Dixon เพื่อตรวจจับค่าผิดปกติ
เครื่องคิดเลขค่าผิดปกติ

เพิ่มความคิดเห็น

อีเมลของคุณจะไม่แสดงให้คนอื่นเห็น ช่องข้อมูลจำเป็นถูกทำเครื่องหมาย *