สารตกค้างที่ได้มาตรฐานคืออะไร?
คงเหลือ คือความแตกต่างระหว่างค่าที่สังเกตได้กับค่าที่คาดการณ์ไว้ใน แบบจำลองการถดถอย
มีการคำนวณดังนี้:
คงเหลือ = ค่าที่สังเกตได้ – ค่าที่คาดการณ์ไว้
หากเราพล็อตค่าที่สังเกตได้และวางทับเส้นการถดถอยที่ติดตั้งไว้ ยอดคงเหลือสำหรับ การสังเกต แต่ละครั้งจะเป็นระยะห่างแนวตั้งระหว่างการสังเกตและเส้นการถดถอย:
สารตกค้างประเภทหนึ่งที่เรามักใช้เพื่อระบุค่าผิดปกติในแบบจำลองการถดถอยเรียกว่า สารตกค้างมาตรฐาน
มีการคำนวณดังนี้:
r i = e i / s(e i ) = e i / RSE√ 1-h ii
ทอง:
- e i : สาร ตกค้าง i
- RSE: ข้อผิดพลาดมาตรฐานคงเหลือของแบบจำลอง
- h ii : การเพิ่มขึ้นของการสังเกต ครั้งที่ 3
ในทางปฏิบัติ เรามักจะพิจารณาปริมาณคงเหลือที่เป็นมาตรฐานใดๆ ซึ่งมีค่าสัมบูรณ์มากกว่า 3 ว่าเป็นค่าผิดปกติ
นี่ไม่ได้หมายความว่าเราจะลบข้อสังเกตเหล่านี้ออกจากแบบจำลอง แต่อย่างน้อยเราควรศึกษาเพิ่มเติมเพื่อตรวจสอบว่าไม่ได้เป็นผลมาจากข้อผิดพลาดในการป้อนข้อมูลหรือเหตุการณ์แปลกๆ อื่นๆ
หมายเหตุ: บางครั้งสารตกค้างที่ได้มาตรฐานเรียกอีกอย่างว่า “สารตกค้างที่ศึกษาภายในองค์กร”
ตัวอย่าง: วิธีการคำนวณปริมาณคงเหลือที่ได้มาตรฐาน
สมมติว่าเรามีชุดข้อมูลต่อไปนี้ซึ่งมีการสังเกตทั้งหมด 12 รายการ:
หากเราใช้ซอฟต์แวร์ทางสถิติ (เช่น R , Excel , Python , Stata ฯลฯ ) เพื่อให้พอดีกับเส้นการถดถอยเชิงเส้นกับชุดข้อมูลนี้ เราจะพบว่าเส้นที่เหมาะสมที่สุดกลายเป็น:
y = 29.63 + 0.7553x
เมื่อใช้เส้นนี้ เราสามารถคำนวณค่าที่ทำนายไว้สำหรับค่า Y แต่ละค่าตามค่าของ X ตัวอย่างเช่น ค่าที่ทำนายของการสังเกตครั้งแรกจะเป็น:
y = 29.63 + 0.7553*(8) = 35.67
จากนั้นเราสามารถคำนวณค่าคงเหลือสำหรับการสังเกตนี้ได้ดังนี้:
คงเหลือ = ค่าที่สังเกตได้ – ค่าที่คาดการณ์ = 41 – 35.67 = 5.33
เราสามารถทำซ้ำขั้นตอนนี้เพื่อค้นหาสิ่งตกค้างสำหรับการสังเกตแต่ละครั้ง:
นอกจากนี้เรายังสามารถใช้ซอฟต์แวร์ทางสถิติเพื่อค้นหาว่าข้อผิดพลาดมาตรฐานที่เหลือของแบบจำลองคือ 4.44
และถึงแม้จะอยู่นอกเหนือขอบเขตของบทช่วยสอนนี้ แต่เราสามารถใช้ซอฟต์แวร์เพื่อค้นหาสถิติเลเวอเรจ (h ii ) สำหรับการสังเกตแต่ละครั้ง:
จากนั้นเราสามารถใช้สูตรต่อไปนี้เพื่อคำนวณค่าคงเหลือที่เป็นมาตรฐานสำหรับการสังเกตแต่ละครั้ง:
r i = e i / RSE√ 1-h ii
ตัวอย่างเช่น ยอดคงเหลือที่ได้มาตรฐานสำหรับการสังเกตครั้งแรกจะคำนวณดังนี้:
r i = 5.33 / 4.44√ 1-0.27 = 1.404
เราสามารถทำซ้ำขั้นตอนนี้เพื่อค้นหาปริมาณคงเหลือที่เป็นมาตรฐานสำหรับการสังเกตแต่ละครั้ง:
จากนั้นเราสามารถสร้างแผนภาพกระจายอย่างรวดเร็วของค่าทำนายเทียบกับค่าคงเหลือมาตรฐานเพื่อดูว่าค่าตกค้างมาตรฐานใดๆ เกินเกณฑ์ค่าสัมบูรณ์ที่ 3 หรือไม่:
จากกราฟ เราจะเห็นว่าไม่มีสารตกค้างมาตรฐานใดเกินค่าสัมบูรณ์ที่ 3 ดังนั้นจึงไม่มีข้อสังเกตใดที่ดูเหมือนจะเป็นค่าผิดปกติ
ควรสังเกตว่าในบางกรณี นักวิจัยพิจารณาข้อสังเกตซึ่งมีปริมาณคงเหลือที่เป็นมาตรฐานเกินค่าสัมบูรณ์ที่ 2 ให้เป็นค่าผิดปกติ
ขึ้นอยู่กับคุณ ขึ้นอยู่กับสาขาที่คุณกำลังทำงานอยู่และปัญหาเฉพาะที่คุณกำลังดำเนินการ ไม่ว่าคุณต้องการใช้ค่าสัมบูรณ์ของ 2 หรือ 3 เป็นเกณฑ์สำหรับค่าผิดปกติ
แหล่งข้อมูลเพิ่มเติม
บทช่วยสอนต่อไปนี้ให้ข้อมูลเพิ่มเติมเกี่ยวกับปริมาณตกค้างที่ได้มาตรฐาน:
สารตกค้างในสถิติคืออะไร?
วิธีการคำนวณปริมาณคงเหลือมาตรฐานใน Excel
วิธีการคำนวณปริมาณคงเหลือมาตรฐานใน R
วิธีการคำนวณค่าคงเหลือมาตรฐานใน Python