คู่มือฉบับสมบูรณ์: เมื่อใดที่ควรลบค่าผิดปกติในข้อมูล
ค่าผิดปกติ คือ การสังเกต ที่อยู่ห่างจากค่าอื่นๆ ในชุดข้อมูลอย่างผิดปกติ
ค่าผิดปกติอาจเป็นปัญหาได้เนื่องจากอาจส่งผลต่อผลลัพธ์ของการวิเคราะห์
อย่างไรก็ตาม พวกเขายังสามารถให้ข้อมูลเชิงลึกเกี่ยวกับข้อมูลที่คุณศึกษาได้ เนื่องจากสามารถเปิดเผยกรณีผิดปกติหรือบุคคลที่มีลักษณะที่หายากได้
ในการวิเคราะห์ใดๆ คุณต้องตัดสินใจว่าจะลบหรือเก็บค่าผิดปกติไว้
โชคดีที่คุณสามารถใช้ผังงานต่อไปนี้เพื่อช่วยในการตัดสินใจ:
มาดูคำถามแต่ละข้อในผังงานกันดีกว่า
ค่าผิดปกติเป็นผลมาจากข้อผิดพลาดในการป้อนข้อมูลหรือไม่?
บางครั้งค่าผิดปกติในชุดข้อมูลอาจเป็นผลมาจากข้อผิดพลาดในการป้อนข้อมูล
ตัวอย่างเช่น สมมติว่านักชีววิทยารวบรวมข้อมูลเกี่ยวกับความสูงของพืชบางชนิดและบันทึกข้อมูลต่อไปนี้:
- 6.83 นิ้ว
- 7.51 นิ้ว
- 5.21 นิ้ว
- 5.84 นิ้ว
- 7.83 นิ้ว
- 755 นิ้ว
- 6.53 นิ้ว
- 6.31 นิ้ว
- 5.91 นิ้ว
แน่นอนว่าขนาด 755 นิ้วถือเป็นค่าผิดปกติและอาจเป็นผลมาจากข้อผิดพลาดในการป้อนข้อมูล ความสูงน่าจะอยู่ที่ 7.55 นิ้ว แต่เพียงป้อนไม่ถูกต้อง
หากนักชีววิทยาเก็บข้อสังเกตนี้ไว้และคำนวณ สถิติเชิงพรรณนา เช่น ความสูงเฉลี่ยของพืชในกลุ่มตัวอย่าง การสังเกตนี้อาจทำให้ผลลัพธ์บิดเบือนอย่างมาก และให้ภาพที่ไม่ถูกต้องของความสูงของพืชโดยเฉลี่ยที่แท้จริง
ในสถานการณ์นี้ (และสถานการณ์ที่คล้ายคลึงกัน) สมควรที่จะลบค่าผิดปกตินี้ออกจากชุดข้อมูล เนื่องจากเป็นข้อผิดพลาดและไม่ใช่จุดข้อมูลที่ถูกต้องตามกฎหมายที่จะรวมไว้ในการวิเคราะห์
ค่าผิดปกติส่งผลกระทบอย่างมีนัยสำคัญต่อผลการวิเคราะห์หรือไม่?
หากการสังเกตเป็นค่าผิดปกติที่แท้จริง และไม่ได้เป็นเพียงผลลัพธ์ของข้อผิดพลาดในการป้อนข้อมูล เราจำเป็นต้องตรวจสอบว่าค่าผิดปกติส่งผลต่อผลลัพธ์ของการวิเคราะห์หรือไม่
ตัวอย่างเช่น สมมติว่านักชีววิทยากำลังศึกษาความสัมพันธ์ระหว่างปุ๋ยกับความสูงของพืช เธอต้องการใช้แบบจำลอง การถดถอยเชิงเส้นอย่างง่าย โดยใช้ปุ๋ยเป็นตัวแปรทำนาย และใช้ความสูงของพืชเป็น ตัวแปรตอบสนอง
รวบรวมข้อมูลต่อไปนี้สำหรับโรงงานที่แตกต่างกัน 12 แห่ง:
เห็นได้ชัดว่าข้อสังเกตสุดท้ายนั้นผิดปกติ
อย่างไรก็ตาม หากเราสร้างแผนภาพกระจายเพื่อแสดงชุดข้อมูลนี้ เราจะเห็นว่าเส้นการถดถอยจะไม่เปลี่ยนแปลงมากนักไม่ว่าเราจะรวมค่าผิดปกติหรือไม่ก็ตาม:
ในสถานการณ์นี้ ค่าผิดปกติไม่ได้ละเมิด สมมติฐานใดๆ ของแบบจำลองการถดถอยเชิงเส้น ดังนั้นเราจึงสามารถเก็บไว้ในชุดข้อมูลได้
อย่างไรก็ตาม สมมติว่าเรามีค่าผิดปกติในข้อมูลดังต่อไปนี้:
แน่นอนว่า ค่าผิดปกตินี้ส่งผลกระทบอย่างมีนัยสำคัญต่อเส้นการถดถอย ดังนั้นเราจึงสามารถปรับแบบจำลองการถดถอยตัวหนึ่งให้เข้ากับค่าผิดปกติและอีกตัวหนึ่งที่ไม่มี จากนั้นจึงรายงานผลลัพธ์ของแบบจำลองการถดถอยทั้งสองแบบ
ค่าผิดปกติส่งผลกระทบต่อสมมติฐานที่ทำในการวิเคราะห์หรือไม่?
หากค่าผิดปกติไม่ได้เป็นผลมาจากข้อผิดพลาดในการป้อนข้อมูล และไม่มีผลกระทบอย่างมีนัยสำคัญต่อผลลัพธ์ของการวิเคราะห์ เราต้องถามว่าค่าผิดปกติส่งผลกระทบต่อสมมติฐานที่ทำในการวิเคราะห์หรือไม่ การวิเคราะห์.
หากไม่ส่งผลกระทบต่อสมมติฐาน เราก็สามารถเก็บไว้ในข้อมูลได้
อย่างไรก็ตาม หากสิ่งนี้ส่งผลกระทบต่อสมมติฐาน เรามีทางเลือกหลายทาง:
1. ถอดมันออก เราสามารถลบมันออกจากข้อมูลและจดบันทึกไว้เมื่อรายงานผลลัพธ์
2. ทำการแปลงข้อมูล แทนที่จะลบค่าผิดปกติออก เราอาจลองทำการ แปลง ข้อมูล เช่น หาค่ารากที่สองหรือบันทึกของค่าทั้งหมดในข้อมูล สิ่งนี้แสดงให้เห็นแล้วว่าลดค่าผิดปกติและมักจะทำให้ข้อมูลมี การกระจายตามปกติ มากขึ้น
ไม่ว่าคุณจะตัดสินใจจัดการกับค่าผิดปกติในข้อมูลของคุณอย่างไร คุณควรบันทึกการตัดสินใจของคุณเกี่ยวกับผลลัพธ์ของการวิเคราะห์ควบคู่ไปกับการใช้เหตุผลของคุณ
แหล่งข้อมูลเพิ่มเติม
บทช่วยสอนต่อไปนี้จะอธิบายวิธีค้นหาและลบค่าผิดปกติในซอฟต์แวร์ทางสถิติต่างๆ:
วิธีค้นหาค่าผิดปกติใน Excel
วิธีค้นหาค่าผิดปกติใน Google ชีต
วิธีค้นหาค่าผิดปกติใน R
วิธีค้นหาค่าผิดปกติใน Python
วิธีค้นหาค่าผิดปกติใน SPSS