การสังเกตที่มีอิทธิพลในสถิติคืออะไร?


ในสถิติ การสังเกตที่มีอิทธิพล คือการสังเกตในชุดข้อมูลที่เมื่อลบออก จะเปลี่ยนแปลง การประมาณค่าสัมประสิทธิ์ ของแบบจำลองการถดถอยอย่างมีนัยสำคัญ

วิธีที่ใช้กันทั่วไปในการวัดอิทธิพลของการสังเกตคือการใช้ ระยะทางของคุก ซึ่งวัดปริมาณว่าค่าที่ติดตั้งทั้งหมดในแบบจำลองการถดถอยจะเปลี่ยนแปลงไปเมื่อลบการสังเกตครั้งที่ 1 ออก

โดยทั่วไป การสังเกตใดๆ ที่มีระยะ Cook มากกว่า 1 ถือเป็นการสังเกตที่มีเลเวอเรจสูง

ตัวอย่างต่อไปนี้แสดงวิธีคำนวณและตีความระยะทางของ Cook สำหรับชุดข้อมูลที่ระบุเพื่อตรวจจับการสังเกตที่อาจมีอิทธิพล

ตัวอย่าง: การตรวจจับการสังเกตที่มีอิทธิพล

สมมติว่าเรามีชุดข้อมูลต่อไปนี้ซึ่งมี 14 ค่า:

ตอนนี้ สมมติว่าเราพอดีกับ แบบจำลองการถดถอยเชิงเส้นอย่างง่าย ผลลัพธ์การถดถอยแสดงไว้ด้านล่าง:

เมื่อใช้ซอฟต์แวร์ทางสถิติ เราสามารถคำนวณค่าต่อไปนี้สำหรับระยะทางของ Cook สำหรับการสังเกตแต่ละครั้ง:

โปรดทราบว่าการสังเกตครั้งล่าสุดมีค่ามากกว่า 1 อย่างมีนัยสำคัญสำหรับระยะห่างของคุก ซึ่งบอกเราว่าเป็นการสังเกตที่มีอิทธิพล

สมมติว่าเราลบค่านี้ออกจากชุดข้อมูลและใส่โมเดลการถดถอยเชิงเส้นแบบง่ายตัวใหม่ ผลลัพธ์ของรุ่นนี้แสดงไว้ด้านล่าง:

โปรดทราบว่าค่าสัมประสิทธิ์การถดถอยสำหรับจุดตัดแกนและ x มีการเปลี่ยนแปลงอย่างมาก สิ่งนี้บอกเราว่าการลบการสังเกตที่มีอิทธิพลออกจากชุดข้อมูลเปลี่ยนแบบจำลองการถดถอยที่ติดตั้งไปโดยสิ้นเชิง

กราฟต่อไปนี้แสดงความแตกต่างระหว่างสมการถดถอยทั้งสองนี้:

สังเกตว่าการสังเกตที่มีอิทธิพลเพียงครั้งเดียวเปลี่ยนเส้นการถดถอยมากน้อยเพียงใด เมื่อลบข้อสังเกตนี้ออก เราก็สามารถค้นหาเส้นถดถอยที่พอดีกับข้อมูลได้ใกล้ยิ่งขึ้น

ความคิดเห็น

สิ่งสำคัญคือต้องทราบว่าควรใช้ระยะห่างของ Cook เพื่อ ระบุ การสังเกตที่อาจมีอิทธิพล อย่างไรก็ตาม การสังเกตมีอิทธิพลไม่ได้หมายความว่าควรลบออกจากชุดข้อมูลเสมอไป

ขั้นแรก คุณต้องตรวจสอบว่าการสังเกตไม่ได้เป็นผลมาจากข้อผิดพลาดในการป้อนข้อมูลหรือเหตุการณ์แปลกๆ อื่นๆ หากกลายเป็นมูลค่าที่ถูกต้องตามกฎหมาย คุณสามารถตัดสินใจที่จะปฏิบัติต่อด้วยวิธีใดวิธีหนึ่งต่อไปนี้:

  • ลบออกจากชุดข้อมูล
  • ปล่อยมันไว้ในชุดข้อมูล
  • แทนที่ด้วยค่าทางเลือก เช่น ค่าเฉลี่ยหรือค่ามัธยฐาน

ตัวเลือกใดตัวเลือกหนึ่งเหล่านี้อาจมีความเหมาะสมมากกว่าตัวเลือกอื่นๆ ทั้งนี้ขึ้นอยู่กับสถานการณ์เฉพาะของคุณ

วิธีการคำนวณระยะทางของแม่ครัวในทางปฏิบัติ

บทช่วยสอนต่อไปนี้จะอธิบายวิธีคำนวณระยะทางของ Cook สำหรับชุดข้อมูลที่กำหนดใน Python และ R:

วิธีการคำนวณระยะทางของ Cook ใน Python
วิธีการคำนวณระยะทางของ Cook ในหน่วย R

เพิ่มความคิดเห็น

อีเมลของคุณจะไม่แสดงให้คนอื่นเห็น ช่องข้อมูลจำเป็นถูกทำเครื่องหมาย *