คู่มือฉบับสมบูรณ์: เมื่อใดที่ควรลบค่าผิดปกติในข้อมูล


ค่าผิดปกติ คือ การสังเกต ที่อยู่ห่างจากค่าอื่นๆ ในชุดข้อมูลอย่างผิดปกติ

ค่าผิดปกติอาจเป็นปัญหาได้เนื่องจากอาจส่งผลต่อผลลัพธ์ของการวิเคราะห์

อย่างไรก็ตาม พวกเขายังสามารถให้ข้อมูลเชิงลึกเกี่ยวกับข้อมูลที่คุณศึกษาได้ เนื่องจากสามารถเปิดเผยกรณีผิดปกติหรือบุคคลที่มีลักษณะที่หายากได้

ในการวิเคราะห์ใดๆ คุณต้องตัดสินใจว่าจะลบหรือเก็บค่าผิดปกติไว้

โชคดีที่คุณสามารถใช้ผังงานต่อไปนี้เพื่อช่วยในการตัดสินใจ:

แผนภูมิลำดับงานเพื่อตัดสินใจว่าจะลบค่าผิดปกติในข้อมูลหรือไม่

มาดูคำถามแต่ละข้อในผังงานกันดีกว่า

ค่าผิดปกติเป็นผลมาจากข้อผิดพลาดในการป้อนข้อมูลหรือไม่?

บางครั้งค่าผิดปกติในชุดข้อมูลอาจเป็นผลมาจากข้อผิดพลาดในการป้อนข้อมูล

ตัวอย่างเช่น สมมติว่านักชีววิทยารวบรวมข้อมูลเกี่ยวกับความสูงของพืชบางชนิดและบันทึกข้อมูลต่อไปนี้:

  • 6.83 นิ้ว
  • 7.51 นิ้ว
  • 5.21 นิ้ว
  • 5.84 นิ้ว
  • 7.83 นิ้ว
  • 755 นิ้ว
  • 6.53 นิ้ว
  • 6.31 นิ้ว
  • 5.91 นิ้ว

แน่นอนว่าขนาด 755 นิ้วถือเป็นค่าผิดปกติและอาจเป็นผลมาจากข้อผิดพลาดในการป้อนข้อมูล ความสูงน่าจะอยู่ที่ 7.55 นิ้ว แต่เพียงป้อนไม่ถูกต้อง

หากนักชีววิทยาเก็บข้อสังเกตนี้ไว้และคำนวณ สถิติเชิงพรรณนา เช่น ความสูงเฉลี่ยของพืชในกลุ่มตัวอย่าง การสังเกตนี้อาจทำให้ผลลัพธ์บิดเบือนอย่างมาก และให้ภาพที่ไม่ถูกต้องของความสูงของพืชโดยเฉลี่ยที่แท้จริง

ในสถานการณ์นี้ (และสถานการณ์ที่คล้ายคลึงกัน) สมควรที่จะลบค่าผิดปกตินี้ออกจากชุดข้อมูล เนื่องจากเป็นข้อผิดพลาดและไม่ใช่จุดข้อมูลที่ถูกต้องตามกฎหมายที่จะรวมไว้ในการวิเคราะห์

ค่าผิดปกติส่งผลกระทบอย่างมีนัยสำคัญต่อผลการวิเคราะห์หรือไม่?

หากการสังเกตเป็นค่าผิดปกติที่แท้จริง และไม่ได้เป็นเพียงผลลัพธ์ของข้อผิดพลาดในการป้อนข้อมูล เราจำเป็นต้องตรวจสอบว่าค่าผิดปกติส่งผลต่อผลลัพธ์ของการวิเคราะห์หรือไม่

ตัวอย่างเช่น สมมติว่านักชีววิทยากำลังศึกษาความสัมพันธ์ระหว่างปุ๋ยกับความสูงของพืช เธอต้องการใช้แบบจำลอง การถดถอยเชิงเส้นอย่างง่าย โดยใช้ปุ๋ยเป็นตัวแปรทำนาย และใช้ความสูงของพืชเป็น ตัวแปรตอบสนอง

รวบรวมข้อมูลต่อไปนี้สำหรับโรงงานที่แตกต่างกัน 12 แห่ง:

เห็นได้ชัดว่าข้อสังเกตสุดท้ายนั้นผิดปกติ

อย่างไรก็ตาม หากเราสร้างแผนภาพกระจายเพื่อแสดงชุดข้อมูลนี้ เราจะเห็นว่าเส้นการถดถอยจะไม่เปลี่ยนแปลงมากนักไม่ว่าเราจะรวมค่าผิดปกติหรือไม่ก็ตาม:

ในสถานการณ์นี้ ค่าผิดปกติไม่ได้ละเมิด สมมติฐานใดๆ ของแบบจำลองการถดถอยเชิงเส้น ดังนั้นเราจึงสามารถเก็บไว้ในชุดข้อมูลได้

อย่างไรก็ตาม สมมติว่าเรามีค่าผิดปกติในข้อมูลดังต่อไปนี้:

แน่นอนว่า ค่าผิดปกตินี้ส่งผลกระทบอย่างมีนัยสำคัญต่อเส้นการถดถอย ดังนั้นเราจึงสามารถปรับแบบจำลองการถดถอยตัวหนึ่งให้เข้ากับค่าผิดปกติและอีกตัวหนึ่งที่ไม่มี จากนั้นจึงรายงานผลลัพธ์ของแบบจำลองการถดถอยทั้งสองแบบ

ค่าผิดปกติส่งผลกระทบต่อสมมติฐานที่ทำในการวิเคราะห์หรือไม่?

หากค่าผิดปกติไม่ได้เป็นผลมาจากข้อผิดพลาดในการป้อนข้อมูล และไม่มีผลกระทบอย่างมีนัยสำคัญต่อผลลัพธ์ของการวิเคราะห์ เราต้องถามว่าค่าผิดปกติส่งผลกระทบต่อสมมติฐานที่ทำในการวิเคราะห์หรือไม่ การวิเคราะห์.

หากไม่ส่งผลกระทบต่อสมมติฐาน เราก็สามารถเก็บไว้ในข้อมูลได้

อย่างไรก็ตาม หากสิ่งนี้ส่งผลกระทบต่อสมมติฐาน เรามีทางเลือกหลายทาง:

1. ถอดมันออก เราสามารถลบมันออกจากข้อมูลและจดบันทึกไว้เมื่อรายงานผลลัพธ์

2. ทำการแปลงข้อมูล แทนที่จะลบค่าผิดปกติออก เราอาจลองทำการ แปลง ข้อมูล เช่น หาค่ารากที่สองหรือบันทึกของค่าทั้งหมดในข้อมูล สิ่งนี้แสดงให้เห็นแล้วว่าลดค่าผิดปกติและมักจะทำให้ข้อมูลมี การกระจายตามปกติ มากขึ้น

ไม่ว่าคุณจะตัดสินใจจัดการกับค่าผิดปกติในข้อมูลของคุณอย่างไร คุณควรบันทึกการตัดสินใจของคุณเกี่ยวกับผลลัพธ์ของการวิเคราะห์ควบคู่ไปกับการใช้เหตุผลของคุณ

แหล่งข้อมูลเพิ่มเติม

บทช่วยสอนต่อไปนี้จะอธิบายวิธีค้นหาและลบค่าผิดปกติในซอฟต์แวร์ทางสถิติต่างๆ:

วิธีค้นหาค่าผิดปกติใน Excel
วิธีค้นหาค่าผิดปกติใน Google ชีต
วิธีค้นหาค่าผิดปกติใน R
วิธีค้นหาค่าผิดปกติใน Python
วิธีค้นหาค่าผิดปกติใน SPSS

เพิ่มความคิดเห็น

อีเมลของคุณจะไม่แสดงให้คนอื่นเห็น ช่องข้อมูลจำเป็นถูกทำเครื่องหมาย *