วิธีระบุค่าผิดปกติใน spss


ค่าผิดปกติ คือการสังเกตที่อยู่ห่างจากค่าอื่นๆ ในชุดข้อมูลอย่างผิดปกติ ค่าผิดปกติอาจเป็นปัญหาได้เนื่องจากอาจส่งผลต่อผลลัพธ์ของการวิเคราะห์

บทช่วยสอนนี้จะอธิบายวิธีการระบุและจัดการค่าผิดปกติใน SPSS

วิธีระบุค่าผิดปกติใน SPSS

สมมติว่าเรามีชุดข้อมูลต่อไปนี้ที่แสดงรายได้ต่อปี (เป็นพัน) ของ 15 คน:

วิธีหนึ่งในการพิจารณาว่ามีค่าผิดปกติหรือไม่คือการสร้าง Boxplot สำหรับชุดข้อมูล ในการดำเนินการนี้ ให้คลิกที่แท็บ วิเคราะห์ จากนั้นคลิก สถิติเชิงพรรณนา จากนั้นคลิก สำรวจ :

ในหน้าต่างใหม่ที่ปรากฏขึ้น ให้ลาก รายได้ ผันแปรลงในช่องที่มีข้อความว่า รายชื่อผู้อยู่ในอุปการะ จากนั้นคลิก สถิติ และตรวจสอบให้แน่ใจว่าได้ทำเครื่องหมายในช่องถัดจาก เปอร์เซ็นต์ไทล์ แล้ว จากนั้นคลิก ดำเนินการต่อ จากนั้นคลิก ตกลง

เมื่อคุณคลิก OK boxplot จะปรากฏขึ้น:

บ็อกซ์พล็อตใน SPSS

หากไม่มีวงกลมหรือเครื่องหมายดอกจันที่ปลายด้านใดด้านหนึ่งของ boxplot แสดงว่าไม่มีค่าผิดปกติอยู่

SPSS จะถือว่าค่าข้อมูลใด ๆ มีค่าผิดปกติหากอยู่นอกช่วงต่อไปนี้:

  • ควอร์ไทล์ที่ 3 + 1.5*ช่วงระหว่างควอร์ไทล์
  • ควอไทล์ที่ 1 – 1.5*พิสัยระหว่างควอไทล์

เราสามารถคำนวณช่วงระหว่างควอไทล์ได้โดยการหาความแตกต่างระหว่างเปอร์เซ็นไทล์ที่ 75 และ 25 ในแถวที่ชื่อ Tukey Hinges ในผลลัพธ์:

พิสัยระหว่างควอไทล์ของบานพับของ Tukey ใน SPSS

สำหรับชุดข้อมูลนี้ ช่วงระหว่างควอไทล์คือ 82 – 36 = 46 ดังนั้นค่าใดๆ ที่อยู่นอกช่วงต่อไปนี้จะถือเป็นค่าผิดปกติ:

  • 82 + 1.5*46 = 151
  • 36 – 1.5*46 = -33

แน่นอนว่ารายได้ไม่สามารถเป็นค่าลบได้ ดังนั้นขอบเขตล่างในตัวอย่างนี้จึงไม่มีประโยชน์ อย่างไรก็ตาม รายได้ใดๆ ที่สูงกว่า 151 จะถือเป็นค่าผิดปกติ

ตัวอย่างเช่น สมมติว่าค่าที่ใหญ่ที่สุดในชุดข้อมูลของเราคือ 152 แทน นี่คือแผนผังกล่องสำหรับชุดข้อมูลนั้น:

Boxplot พร้อมค่าผิดปกติใน SPSS

วงกลมแสดงว่ามีค่าผิดปกติอยู่ในข้อมูล หมายเลข 15 บ่งชี้ว่าการสังเกตใดในชุดข้อมูลมีค่าผิดปกติ

SPSS ยังถือว่าค่าข้อมูลใด ๆ มีค่าผิดปกติอย่างมาก หากอยู่นอกช่วงต่อไปนี้:

  • ควอไทล์ที่ 3 + 3*พิสัยระหว่างควอไทล์
  • ควอร์ไทล์ที่ 1 – 3*พิสัยระหว่างควอไทล์

ดังนั้นค่าใดๆ ที่อยู่นอกช่วงต่อไปนี้จะถือเป็นค่าผิดปกติที่รุนแรงในตัวอย่างนี้:

  • 82 + 3*46 = 220
  • 36 – 3*46 = -102

ตัวอย่างเช่น สมมติว่าค่าที่ใหญ่ที่สุดในชุดข้อมูลของเราคือ 221 นี่คือแผนภาพกล่องของชุดข้อมูลนี้:

ค่าผิดปกติสุดขีดใน boxplot ใน SPSS

เครื่องหมายดอกจัน (*) ระบุว่ามีค่าผิดปกติอย่างมากในข้อมูล ตัวเลข 15 บ่งชี้ว่าการสังเกตใดในชุดข้อมูลมีค่าผิดปกติมาก

วิธีจัดการกับค่าผิดปกติ

หากมีค่าผิดปกติในข้อมูลของคุณ คุณจะมีหลายตัวเลือก:

1. ตรวจสอบให้แน่ใจว่าค่าผิดปกติไม่ได้เป็นผลมาจากข้อผิดพลาดในการป้อนข้อมูล

บางครั้งบุคคลเพียงแต่กรอกค่าข้อมูลที่ไม่ถูกต้องในขณะที่บันทึกข้อมูล หากมีค่าผิดปกติ ให้ตรวจสอบก่อนว่าค่าที่ป้อนถูกต้องและไม่ใช่ข้อผิดพลาด

2. ถอดค่าผิดปกติออก

หากค่านั้นเป็นค่าผิดปกติจริงๆ คุณสามารถเลือกที่จะลบค่านั้นออกได้หากจะมีผลกระทบสำคัญต่อการวิเคราะห์โดยรวมของคุณ เพียงอย่าลืมพูดถึงในรายงานหรือการวิเคราะห์ขั้นสุดท้ายของคุณว่าคุณได้ลบค่าผิดปกติออก

3. กำหนดค่าใหม่ให้กับค่าผิดปกติ

หากค่าผิดปกติกลายเป็นผลลัพธ์ของข้อผิดพลาดในการป้อนข้อมูล คุณสามารถตัดสินใจกำหนดค่าใหม่ให้กับค่าดังกล่าวได้ เช่น ค่าเฉลี่ยหรือค่ามัธยฐาน ของชุดข้อมูล

แหล่งข้อมูลเพิ่มเติม

หากคุณกำลังทำงานกับตัวแปรหลายตัวพร้อมกัน คุณอาจต้องการใช้ ระยะห่างของ Mahalanobis เพื่อตรวจจับค่าผิดปกติ

เพิ่มความคิดเห็น

อีเมลของคุณจะไม่แสดงให้คนอื่นเห็น ช่องข้อมูลจำเป็นถูกทำเครื่องหมาย *