วิธีการ winsorize ข้อมูล: คำจำกัดความและตัวอย่าง


การชนะ ข้อมูลหมายถึงการตั้งค่าค่าผิดปกติสุดขีดให้เท่ากับเปอร์เซ็นไทล์ที่ระบุของข้อมูล

ตัวอย่างเช่น การชนะรางวัล 90% จะตั้ง ค่าการสังเกต ทั้งหมดเหนือเปอร์เซ็นไทล์ที่ 95 เท่ากับค่าที่เปอร์เซ็นไทล์ที่ 95 และการสังเกตทั้งหมดที่ต่ำกว่าเปอร์เซ็นไทล์ที่ 5 เท่ากับค่าที่เปอร์เซ็นไทล์ที่ 5

แท้จริงแล้วข้อมูลที่ได้รับชัยชนะหมายถึงการเปลี่ยนค่าสุดขีดของชุดข้อมูลให้เป็นค่าสุดขีดที่น้อยลง

ตัวอย่าง: วิธีการ Winsorize ข้อมูล

สมมติว่าเรามีชุดข้อมูลต่อไปนี้:

 3, 14, 16, 16, 17, 29, 34, 36, 39, 47, 59, 64, 65, 66, 68, 79, 91, 98

หากต้องการดำเนินการชนะ 90% ในชุดข้อมูลนี้ ก่อนอื่นเราจะค้นหาเปอร์เซ็นไทล์ที่ 5 และเปอร์เซ็นไทล์ที่ 95 ซึ่งกลายเป็น:

  • เปอร์เซ็นไทล์ที่ 5: 12.35
  • เปอร์เซ็นไทล์ที่ 95: 92.05

จากนั้นเราจะตั้งค่าทั้งหมดน้อยกว่า 12.35 เท่ากับ 12.35 และค่าทั้งหมดที่มากกว่า 92.05 เท่ากับ 92.05:

 12.35, 14, 16, 16, 17, 29, 34, 36, 39, 47, 59, 64, 65, 66, 68, 79, 91, 92.05

ในกรณีนี้ ค่า 3 กลายเป็น 12.35 และค่า 98 กลายเป็น 92.05

ทำไมต้อง Winsorize ข้อมูล?

ค่าเฉลี่ยและส่วนเบี่ยงเบนมาตรฐานเป็นวิธีการทั่วไปสองวิธีในการวัด ตำแหน่งของศูนย์กลาง ของชุดข้อมูลและการกระจายของการสังเกตในชุดข้อมูล ตามลำดับ

อย่างไรก็ตาม มาตรการทั้งสองนี้สามารถได้รับอิทธิพลจากค่าผิดปกติที่รุนแรงได้ ดังนั้นการชนะข้อมูลทำให้เราสามารถกำหนดค่าผิดปกติสุดขีดเท่ากับค่าสุดขีดที่น้อยลง

ซึ่งมักจะช่วยให้เราได้มุมมองที่แม่นยำยิ่งขึ้นเกี่ยวกับค่าเฉลี่ยและส่วนเบี่ยงเบนมาตรฐานของชุดข้อมูล

พลัมทองวินเซอร์

อีกวิธีทั่วไปในการจัดการกับค่าผิดปกติคือการ ลบ ค่าเหล่านี้ออกจากชุดข้อมูล ซึ่งหมายถึงการลบค่าผิดปกติทั้งหมด

ตัวอย่างเช่น พิจารณาชุดข้อมูลก่อนหน้า:

 3, 14, 16, 16, 17, 29, 34, 36, 39, 47, 59, 64, 65, 66, 68, 79, 91, 98

หากเราต้องการลดค่าให้ต่ำกว่าเปอร์เซ็นไทล์ที่ 5 หรือสูงกว่าเปอร์เซ็นไทล์ที่ 95 เราก็จะลบค่า 3 และ 98 ออก.

ต่อไปนี้เป็นกฎง่ายๆ บางประการว่าเมื่อใดควรใช้การแบ่งส่วนหรือการชนะรางวัล:

การตัดแต่ง: ควรตัดแต่งค่าข้อมูลเมื่อค่าบางค่าดูเหมือนไม่สมเหตุสมผลโดยสิ้นเชิง กล่าวคือ เป็นผลมาจากข้อผิดพลาดในการป้อนข้อมูล

Winsorization: เป็นเรื่องสมเหตุสมผลที่จะ Winsorize ข้อมูลเมื่อเราต้องการเก็บข้อสังเกตที่อยู่สุดขั้ว แต่ไม่ต้องการนำไปใช้ตามตัวอักษรจนเกินไป

ข้อควรระวังเกี่ยวกับการชนะข้อมูล

ต่อไปนี้เป็นสิ่งที่ควรคำนึงถึงเมื่อตัดสินใจรับข้อมูล:

1. หากไม่มีค่าผิดปกติที่รุนแรง การชนะข้อมูลจะทำให้ค่าที่เล็กที่สุดและใหญ่ที่สุดเปลี่ยนแปลงเพียงเล็กน้อยเท่านั้น โดยทั่วไปนี่ไม่ใช่ความคิดที่ดีเพราะหมายความว่าเราเพียงเปลี่ยนค่าข้อมูลเพื่อจุดประสงค์ในการเปลี่ยนแปลงเพียงอย่างเดียว

2. ค่าผิดปกติสามารถแสดงถึงกรณีขอบที่น่าสนใจในข้อมูลได้ ดังนั้น ก่อนที่คุณจะแก้ไขค่าผิดปกติ คุณควรพิจารณาให้ละเอียดยิ่งขึ้นเพื่อดูว่าอะไรเป็นสาเหตุให้เกิดค่าผิดปกติ

3. คุณควรตัดสินใจว่าจะรับข้อมูล หลังจาก การรวบรวมข้อมูลหรือไม่ ไม่ใช่ก่อน คุณควรดูว่าจริงๆ แล้วมีค่าผิดปกติที่รุนแรงหรือไม่ก่อนที่จะตัดสินใจ Winsorize หากไม่มีค่าผิดปกติที่รุนแรง การ winsorization อาจไม่จำเป็น

บทช่วยสอน: Winsorize ข้อมูลใน Excel

โปรดดู บทช่วยสอนนี้ เพื่อดูตัวอย่างทีละขั้นตอนของวิธีการรับชุดข้อมูลใน Excel

เพิ่มความคิดเห็น

อีเมลของคุณจะไม่แสดงให้คนอื่นเห็น ช่องข้อมูลจำเป็นถูกทำเครื่องหมาย *