วิธีการ winsorize ข้อมูล: คำจำกัดความและตัวอย่าง
การชนะ ข้อมูลหมายถึงการตั้งค่าค่าผิดปกติสุดขีดให้เท่ากับเปอร์เซ็นไทล์ที่ระบุของข้อมูล
ตัวอย่างเช่น การชนะรางวัล 90% จะตั้ง ค่าการสังเกต ทั้งหมดเหนือเปอร์เซ็นไทล์ที่ 95 เท่ากับค่าที่เปอร์เซ็นไทล์ที่ 95 และการสังเกตทั้งหมดที่ต่ำกว่าเปอร์เซ็นไทล์ที่ 5 เท่ากับค่าที่เปอร์เซ็นไทล์ที่ 5
แท้จริงแล้วข้อมูลที่ได้รับชัยชนะหมายถึงการเปลี่ยนค่าสุดขีดของชุดข้อมูลให้เป็นค่าสุดขีดที่น้อยลง
ตัวอย่าง: วิธีการ Winsorize ข้อมูล
สมมติว่าเรามีชุดข้อมูลต่อไปนี้:
3, 14, 16, 16, 17, 29, 34, 36, 39, 47, 59, 64, 65, 66, 68, 79, 91, 98
หากต้องการดำเนินการชนะ 90% ในชุดข้อมูลนี้ ก่อนอื่นเราจะค้นหาเปอร์เซ็นไทล์ที่ 5 และเปอร์เซ็นไทล์ที่ 95 ซึ่งกลายเป็น:
- เปอร์เซ็นไทล์ที่ 5: 12.35
- เปอร์เซ็นไทล์ที่ 95: 92.05
จากนั้นเราจะตั้งค่าทั้งหมดน้อยกว่า 12.35 เท่ากับ 12.35 และค่าทั้งหมดที่มากกว่า 92.05 เท่ากับ 92.05:
12.35, 14, 16, 16, 17, 29, 34, 36, 39, 47, 59, 64, 65, 66, 68, 79, 91, 92.05
ในกรณีนี้ ค่า 3 กลายเป็น 12.35 และค่า 98 กลายเป็น 92.05
ทำไมต้อง Winsorize ข้อมูล?
ค่าเฉลี่ยและส่วนเบี่ยงเบนมาตรฐานเป็นวิธีการทั่วไปสองวิธีในการวัด ตำแหน่งของศูนย์กลาง ของชุดข้อมูลและการกระจายของการสังเกตในชุดข้อมูล ตามลำดับ
อย่างไรก็ตาม มาตรการทั้งสองนี้สามารถได้รับอิทธิพลจากค่าผิดปกติที่รุนแรงได้ ดังนั้นการชนะข้อมูลทำให้เราสามารถกำหนดค่าผิดปกติสุดขีดเท่ากับค่าสุดขีดที่น้อยลง
ซึ่งมักจะช่วยให้เราได้มุมมองที่แม่นยำยิ่งขึ้นเกี่ยวกับค่าเฉลี่ยและส่วนเบี่ยงเบนมาตรฐานของชุดข้อมูล
พลัมทองวินเซอร์
อีกวิธีทั่วไปในการจัดการกับค่าผิดปกติคือการ ลบ ค่าเหล่านี้ออกจากชุดข้อมูล ซึ่งหมายถึงการลบค่าผิดปกติทั้งหมด
ตัวอย่างเช่น พิจารณาชุดข้อมูลก่อนหน้า:
3, 14, 16, 16, 17, 29, 34, 36, 39, 47, 59, 64, 65, 66, 68, 79, 91, 98
หากเราต้องการลดค่าให้ต่ำกว่าเปอร์เซ็นไทล์ที่ 5 หรือสูงกว่าเปอร์เซ็นไทล์ที่ 95 เราก็จะลบค่า 3 และ 98 ออก.
ต่อไปนี้เป็นกฎง่ายๆ บางประการว่าเมื่อใดควรใช้การแบ่งส่วนหรือการชนะรางวัล:
การตัดแต่ง: ควรตัดแต่งค่าข้อมูลเมื่อค่าบางค่าดูเหมือนไม่สมเหตุสมผลโดยสิ้นเชิง กล่าวคือ เป็นผลมาจากข้อผิดพลาดในการป้อนข้อมูล
Winsorization: เป็นเรื่องสมเหตุสมผลที่จะ Winsorize ข้อมูลเมื่อเราต้องการเก็บข้อสังเกตที่อยู่สุดขั้ว แต่ไม่ต้องการนำไปใช้ตามตัวอักษรจนเกินไป
ข้อควรระวังเกี่ยวกับการชนะข้อมูล
ต่อไปนี้เป็นสิ่งที่ควรคำนึงถึงเมื่อตัดสินใจรับข้อมูล:
1. หากไม่มีค่าผิดปกติที่รุนแรง การชนะข้อมูลจะทำให้ค่าที่เล็กที่สุดและใหญ่ที่สุดเปลี่ยนแปลงเพียงเล็กน้อยเท่านั้น โดยทั่วไปนี่ไม่ใช่ความคิดที่ดีเพราะหมายความว่าเราเพียงเปลี่ยนค่าข้อมูลเพื่อจุดประสงค์ในการเปลี่ยนแปลงเพียงอย่างเดียว
2. ค่าผิดปกติสามารถแสดงถึงกรณีขอบที่น่าสนใจในข้อมูลได้ ดังนั้น ก่อนที่คุณจะแก้ไขค่าผิดปกติ คุณควรพิจารณาให้ละเอียดยิ่งขึ้นเพื่อดูว่าอะไรเป็นสาเหตุให้เกิดค่าผิดปกติ
3. คุณควรตัดสินใจว่าจะรับข้อมูล หลังจาก การรวบรวมข้อมูลหรือไม่ ไม่ใช่ก่อน คุณควรดูว่าจริงๆ แล้วมีค่าผิดปกติที่รุนแรงหรือไม่ก่อนที่จะตัดสินใจ Winsorize หากไม่มีค่าผิดปกติที่รุนแรง การ winsorization อาจไม่จำเป็น
บทช่วยสอน: Winsorize ข้อมูลใน Excel
โปรดดู บทช่วยสอนนี้ เพื่อดูตัวอย่างทีละขั้นตอนของวิธีการรับชุดข้อมูลใน Excel