สารตกค้างในสถิติคืออะไร?


คงเหลือ คือความแตกต่างระหว่างค่าที่สังเกตได้และค่าที่คาดการณ์ไว้ใน การวิเคราะห์การถดถอย

มีการคำนวณดังนี้:

คงเหลือ = ค่าที่สังเกตได้ – ค่าที่คาดการณ์ไว้

โปรดจำไว้ว่าเป้าหมายของการถดถอยเชิงเส้นคือการหาปริมาณความสัมพันธ์ระหว่างตัวแปรทำนายตั้งแต่หนึ่งตัวขึ้นไปกับ ตัวแปรตอบสนอง เมื่อต้องการทำเช่นนี้ การถดถอยเชิงเส้นจะค้นหาเส้นที่ “พอดี” กับข้อมูลมากที่สุด ซึ่งเรียกว่า เส้นการถดถอยกำลังสองน้อยที่สุด

เส้นนี้สร้างคำทำนายสำหรับ การสังเกต แต่ละครั้งในชุดข้อมูล แต่ไม่น่าเป็นไปได้ที่การทำนายที่ทำโดยเส้นการถดถอยจะ ตรง กับค่าที่สังเกตได้ทุกประการ

ความแตกต่างระหว่างการทำนายและค่าที่สังเกตได้คือค่าคงเหลือ หากเราพล็อตค่าที่สังเกตได้และวางทับเส้นการถดถอยที่ติดตั้งไว้ ยอดคงเหลือสำหรับการสังเกตแต่ละครั้งจะเป็นระยะห่างแนวตั้งระหว่างการสังเกตและเส้นการถดถอย:

ตัวอย่างค่าคงเหลือในสถิติ

การสังเกตจะมีค่า คงเหลือเป็นบวก ถ้าค่าของมันมากกว่าค่าที่ทำนายไว้โดยเส้นการถดถอย

ในทางกลับกัน การสังเกตจะมีค่า คงเหลือเป็นลบ หากค่าของมันน้อยกว่าค่าที่ทำนายไว้โดยเส้นการถดถอย

สารตกค้างที่เป็นบวกหรือลบ

การสังเกตบางอย่างจะมีค่าตกค้างเป็นบวก ในขณะที่บางค่าจะมีค่าตกค้างเป็นลบ แต่ค่าตกค้างทั้งหมดจะรวมกัน เป็นศูนย์

ตัวอย่างการคำนวณยอดคงเหลือ

สมมติว่าเรามีชุดข้อมูลต่อไปนี้ซึ่งมีการสังเกตทั้งหมด 12 รายการ:

หากเราใช้ซอฟต์แวร์ทางสถิติ (เช่น R , Excel , Python , Stata ฯลฯ) เพื่อให้พอดีกับเส้นการถดถอยเชิงเส้นกับชุดข้อมูลนี้ เราจะพบว่าเส้นที่เหมาะสมที่สุดกลายเป็น:

y = 29.63 + 0.7553x

เมื่อใช้เส้นนี้ เราสามารถคำนวณค่าที่ทำนายไว้สำหรับค่า Y แต่ละค่าตามค่าของ X ตัวอย่างเช่น ค่าที่ทำนายของการสังเกตครั้งแรกจะเป็น:

y = 29.63 + 0.7553*(8) = 35.67

จากนั้นเราสามารถคำนวณค่าคงเหลือสำหรับการสังเกตนี้ได้ดังนี้:

คงเหลือ = ค่าที่สังเกตได้ – ค่าที่คาดการณ์ = 41 – 35.67 = 5.33

เราสามารถทำซ้ำขั้นตอนนี้เพื่อค้นหาสิ่งตกค้างสำหรับการสังเกตแต่ละครั้ง:

วิธีการคำนวณปริมาณคงเหลือ

หากเราสร้างแผนภาพกระจายเพื่อแสดงภาพการสังเกตด้วยเส้นการถดถอยที่พอดี เราจะเห็นว่าการสังเกตบางส่วนอยู่เหนือเส้น ในขณะที่บางจุดอยู่ใต้เส้น:

เส้นถดถอยพร้อมพล็อตคงเหลือ

คุณสมบัติของสารตกค้าง

สารตกค้างมีคุณสมบัติดังต่อไปนี้:

  • การสังเกตแต่ละครั้งในชุดข้อมูลจะมีค่าคงเหลือที่สอดคล้องกัน ดังนั้น หากชุดข้อมูลประกอบด้วยการสังเกตทั้งหมด 100 ครั้ง แบบจำลองจะสร้างค่าที่คาดการณ์ไว้ 100 ค่า ส่งผลให้มีค่าคงเหลือทั้งหมด 100 ค่า
  • ผลรวมของยอดคงเหลือทั้งหมดเป็นศูนย์
  • มูลค่าเฉลี่ยของปริมาณคงเหลือเป็นศูนย์

สารตกค้างถูกนำมาใช้ในทางปฏิบัติอย่างไร?

ในทางปฏิบัติ สารตกค้างจะถูกใช้ด้วยเหตุผลสามประการในการถดถอย:

1. ประเมินความเพียงพอของแบบจำลอง

เมื่อเราสร้างเส้นการถดถอยพอดีแล้ว เราก็สามารถคำนวณ ผลรวมของกำลังสองที่เหลือ (RSS) ซึ่งเป็นผลรวมของกำลังสองที่เหลือทั้งหมด ยิ่ง RSS ต่ำ โมเดลการถดถอยจะเข้ากับข้อมูลได้ดียิ่งขึ้น

2. ตรวจสอบสมมติฐานปกติ

ข้อสันนิษฐานสำคัญประการหนึ่งของการถดถอยเชิงเส้น คือส่วนที่เหลือมีการกระจายตามปกติ

เพื่อทดสอบสมมติฐานนี้ เราสามารถสร้างพล็อต QQ ซึ่งเป็นประเภทของพล็อตที่เราสามารถใช้เพื่อพิจารณาว่าส่วนที่เหลือของแบบจำลองเป็นไปตามการแจกแจงแบบปกติหรือไม่

หากจุดบนโครงเรื่องเป็นเส้นทแยงมุมโดยประมาณ ก็จะถือว่าเป็นไปตามภาวะปกติ

ตัวอย่างพล็อต QQ

3. ตรวจสอบสมมติฐานความเป็นเนื้อเดียวกัน

สมมติฐานที่สำคัญอีกประการหนึ่งของการถดถอยเชิงเส้นคือส่วนที่เหลือมีความแปรปรวนคงที่ในแต่ละระดับของ x สิ่งนี้เรียกว่าการรักร่วมเพศ เมื่อไม่เป็นเช่นนั้น สิ่งตกค้างจะประสบกับ ภาวะเฮเทอโรซีดาสติกซิตี

เพื่อตรวจสอบว่าเป็นไปตามสมมติฐานนี้หรือไม่ เราสามารถสร้าง จุดคงเหลือ ซึ่งเป็นแผนภาพกระจายที่แสดงค่าคงเหลือเทียบกับค่าที่คาดการณ์ไว้ของแบบจำลอง

ตัวอย่างการพล็อตค่าคงเหลือและค่าที่ปรับปรุงแล้ว
ตัวอย่างการพล็อตค่าคงเหลือและค่าที่ปรับปรุงแล้ว

ถ้าส่วนที่เหลือมีการกระจายเท่าๆ กันประมาณประมาณศูนย์ในกราฟโดยไม่มีแนวโน้มที่ชัดเจน โดยทั่วไปแล้วเราจะกล่าวว่าเป็นไปตามสมมติฐานของความเป็นเนื้อเดียวกัน

แหล่งข้อมูลเพิ่มเติม

รู้เบื้องต้นเกี่ยวกับการถดถอยเชิงเส้นอย่างง่าย
รู้เบื้องต้นเกี่ยวกับการถดถอยเชิงเส้นพหุคูณ
สมมติฐานสี่ประการของการถดถอยเชิงเส้น
วิธีการสร้างพล็อตที่เหลือใน Excel

เพิ่มความคิดเห็น

อีเมลของคุณจะไม่แสดงให้คนอื่นเห็น ช่องข้อมูลจำเป็นถูกทำเครื่องหมาย *