วิธีระบุค่าผิดปกติใน spss
ค่าผิดปกติ คือการสังเกตที่อยู่ห่างจากค่าอื่นๆ ในชุดข้อมูลอย่างผิดปกติ ค่าผิดปกติอาจเป็นปัญหาได้เนื่องจากอาจส่งผลต่อผลลัพธ์ของการวิเคราะห์
บทช่วยสอนนี้จะอธิบายวิธีการระบุและจัดการค่าผิดปกติใน SPSS
วิธีระบุค่าผิดปกติใน SPSS
สมมติว่าเรามีชุดข้อมูลต่อไปนี้ที่แสดงรายได้ต่อปี (เป็นพัน) ของ 15 คน:
วิธีหนึ่งในการพิจารณาว่ามีค่าผิดปกติหรือไม่คือการสร้าง Boxplot สำหรับชุดข้อมูล ในการดำเนินการนี้ ให้คลิกที่แท็บ วิเคราะห์ จากนั้นคลิก สถิติเชิงพรรณนา จากนั้นคลิก สำรวจ :
ในหน้าต่างใหม่ที่ปรากฏขึ้น ให้ลาก รายได้ ผันแปรลงในช่องที่มีข้อความว่า รายชื่อผู้อยู่ในอุปการะ จากนั้นคลิก สถิติ และตรวจสอบให้แน่ใจว่าได้ทำเครื่องหมายในช่องถัดจาก เปอร์เซ็นต์ไทล์ แล้ว จากนั้นคลิก ดำเนินการต่อ จากนั้นคลิก ตกลง
เมื่อคุณคลิก OK boxplot จะปรากฏขึ้น:
หากไม่มีวงกลมหรือเครื่องหมายดอกจันที่ปลายด้านใดด้านหนึ่งของ boxplot แสดงว่าไม่มีค่าผิดปกติอยู่
SPSS จะถือว่าค่าข้อมูลใด ๆ มีค่าผิดปกติหากอยู่นอกช่วงต่อไปนี้:
- ควอร์ไทล์ที่ 3 + 1.5*ช่วงระหว่างควอร์ไทล์
- ควอไทล์ที่ 1 – 1.5*พิสัยระหว่างควอไทล์
เราสามารถคำนวณช่วงระหว่างควอไทล์ได้โดยการหาความแตกต่างระหว่างเปอร์เซ็นไทล์ที่ 75 และ 25 ในแถวที่ชื่อ Tukey Hinges ในผลลัพธ์:
สำหรับชุดข้อมูลนี้ ช่วงระหว่างควอไทล์คือ 82 – 36 = 46 ดังนั้นค่าใดๆ ที่อยู่นอกช่วงต่อไปนี้จะถือเป็นค่าผิดปกติ:
- 82 + 1.5*46 = 151
- 36 – 1.5*46 = -33
แน่นอนว่ารายได้ไม่สามารถเป็นค่าลบได้ ดังนั้นขอบเขตล่างในตัวอย่างนี้จึงไม่มีประโยชน์ อย่างไรก็ตาม รายได้ใดๆ ที่สูงกว่า 151 จะถือเป็นค่าผิดปกติ
ตัวอย่างเช่น สมมติว่าค่าที่ใหญ่ที่สุดในชุดข้อมูลของเราคือ 152 แทน นี่คือแผนผังกล่องสำหรับชุดข้อมูลนั้น:
วงกลมแสดงว่ามีค่าผิดปกติอยู่ในข้อมูล หมายเลข 15 บ่งชี้ว่าการสังเกตใดในชุดข้อมูลมีค่าผิดปกติ
SPSS ยังถือว่าค่าข้อมูลใด ๆ มีค่าผิดปกติอย่างมาก หากอยู่นอกช่วงต่อไปนี้:
- ควอไทล์ที่ 3 + 3*พิสัยระหว่างควอไทล์
- ควอร์ไทล์ที่ 1 – 3*พิสัยระหว่างควอไทล์
ดังนั้นค่าใดๆ ที่อยู่นอกช่วงต่อไปนี้จะถือเป็นค่าผิดปกติที่รุนแรงในตัวอย่างนี้:
- 82 + 3*46 = 220
- 36 – 3*46 = -102
ตัวอย่างเช่น สมมติว่าค่าที่ใหญ่ที่สุดในชุดข้อมูลของเราคือ 221 นี่คือแผนภาพกล่องของชุดข้อมูลนี้:
เครื่องหมายดอกจัน (*) ระบุว่ามีค่าผิดปกติอย่างมากในข้อมูล ตัวเลข 15 บ่งชี้ว่าการสังเกตใดในชุดข้อมูลมีค่าผิดปกติมาก
วิธีจัดการกับค่าผิดปกติ
หากมีค่าผิดปกติในข้อมูลของคุณ คุณจะมีหลายตัวเลือก:
1. ตรวจสอบให้แน่ใจว่าค่าผิดปกติไม่ได้เป็นผลมาจากข้อผิดพลาดในการป้อนข้อมูล
บางครั้งบุคคลเพียงแต่กรอกค่าข้อมูลที่ไม่ถูกต้องในขณะที่บันทึกข้อมูล หากมีค่าผิดปกติ ให้ตรวจสอบก่อนว่าค่าที่ป้อนถูกต้องและไม่ใช่ข้อผิดพลาด
2. ถอดค่าผิดปกติออก
หากค่านั้นเป็นค่าผิดปกติจริงๆ คุณสามารถเลือกที่จะลบค่านั้นออกได้หากจะมีผลกระทบสำคัญต่อการวิเคราะห์โดยรวมของคุณ เพียงอย่าลืมพูดถึงในรายงานหรือการวิเคราะห์ขั้นสุดท้ายของคุณว่าคุณได้ลบค่าผิดปกติออก
3. กำหนดค่าใหม่ให้กับค่าผิดปกติ
หากค่าผิดปกติกลายเป็นผลลัพธ์ของข้อผิดพลาดในการป้อนข้อมูล คุณสามารถตัดสินใจกำหนดค่าใหม่ให้กับค่าดังกล่าวได้ เช่น ค่าเฉลี่ยหรือค่ามัธยฐาน ของชุดข้อมูล
แหล่งข้อมูลเพิ่มเติม
หากคุณกำลังทำงานกับตัวแปรหลายตัวพร้อมกัน คุณอาจต้องการใช้ ระยะห่างของ Mahalanobis เพื่อตรวจจับค่าผิดปกติ