วิธีรับค่าที่ทำนายและค่าคงเหลือใน stata
การถดถอยเชิงเส้น เป็นวิธีการที่เราสามารถใช้เพื่อทำความเข้าใจความสัมพันธ์ระหว่างตัวแปรอธิบายตั้งแต่หนึ่งตัวขึ้นไปกับตัวแปรตอบสนอง
เมื่อเราทำการถดถอยเชิงเส้นกับชุดข้อมูล เราจะได้สมการการถดถอยที่สามารถใช้เพื่อทำนายค่าของตัวแปรตอบสนอง โดยพิจารณาจากค่าของตัวแปรอธิบาย
จากนั้นเราสามารถวัดความแตกต่างระหว่างค่าที่ทำนายไว้กับค่าจริงเพื่อให้ได้ค่า คงเหลือ สำหรับการทำนายแต่ละครั้ง สิ่งนี้ช่วยให้เราเข้าใจว่าแบบจำลองการถดถอยของเราทำนายค่าตอบสนองได้ดีเพียงใด
บทช่วยสอนนี้จะอธิบายวิธีการรับทั้ง ค่าที่คาดการณ์ และ ค่าคงเหลือ สำหรับแบบจำลองการถดถอยใน Stata
ตัวอย่าง: วิธีรับค่าที่ทำนายและค่าคงเหลือ
สำหรับตัวอย่างนี้ เราจะใช้ชุดข้อมูล Stata ในตัวที่เรียกว่า auto เราจะใช้ mpg และ การกระจัด เป็นตัวแปรอธิบายและ ราคา เป็นตัวแปรตอบสนอง
ใช้ขั้นตอนต่อไปนี้เพื่อทำการถดถอยเชิงเส้น จากนั้นรับค่าที่คาดการณ์ไว้และค่าคงเหลือสำหรับแบบจำลองการถดถอย
ขั้นตอนที่ 1: โหลดและแสดงข้อมูล
ขั้นแรกเราจะโหลดข้อมูลโดยใช้คำสั่งต่อไปนี้:
การใช้งานระบบอัตโนมัติ
ต่อไปเราจะรับข้อมูลสรุปโดยย่อโดยใช้คำสั่งต่อไปนี้:
เพื่อสรุป
ขั้นตอนที่ 2: ติดตั้งโมเดลการถดถอย
ต่อไป เราจะใช้คำสั่งต่อไปนี้เพื่อให้เหมาะสมกับโมเดลการถดถอย:
ราคาถดถอย mpg แทนที่
สมการการถดถอยโดยประมาณคือ:
ราคาโดยประมาณ = 6672.766 -121.1833*(mpg) + 10.50885*(การกระจัด)
ขั้นตอนที่ 3: รับค่าที่ทำนายไว้
เราสามารถรับค่าทำนายได้โดยใช้คำสั่ง ทำนาย และจัดเก็บค่าเหล่านี้ไว้ในตัวแปรที่ตั้งชื่อตามที่เราต้องการ ในกรณีนี้เราจะใช้ชื่อ pred_price :
ทำนายราคา pred_price
เราสามารถแสดงราคาจริงและราคาที่คาดการณ์ไว้เคียงข้างกันได้โดยใช้คำสั่ง list มีค่าทำนายทั้งหมด 74 ค่า แต่เราจะแสดงเฉพาะ 10 ค่าแรกโดยใช้คำสั่ง in 1/10 :
ราคาปลีก pre_price ใน 1/10
ขั้นตอนที่ 4: รับสารตกค้าง
เราสามารถรับค่าคงเหลือของการทำนายแต่ละครั้งได้โดยใช้คำสั่ง residuals และเก็บค่าเหล่านี้ไว้ในตัวแปรชื่ออะไรก็ได้ที่เราต้องการ ในกรณีนี้เราจะใช้ชื่อ resid_price :
ทำนายราคาที่อยู่อาศัย, ราคาคงเหลือ
เราสามารถแสดงราคาจริง ราคาที่คาดหวัง และยอดคงเหลือคู่กันโดยใช้คำสั่ง list อีกครั้ง:
ราคาปลีก pred_price resid_price ใน 1/10
ขั้นตอนที่ 5: สร้างพล็อตของค่าที่ทำนายไว้กับค่าคงเหลือ
ในที่สุด เราสามารถสร้าง Scatterplot เพื่อให้เห็นภาพความสัมพันธ์ระหว่างค่าที่คาดการณ์กับค่าคงเหลือ:
การกระจาย reside_price pred_price
เราจะเห็นได้ว่าโดยเฉลี่ยแล้วค่าคงเหลือมีแนวโน้มเพิ่มขึ้นเมื่อค่าติดตั้งเพิ่มขึ้น นี่อาจเป็นสัญญาณของ ความไม่สมดุล – เมื่อการกระจายตัวของสารตกค้างไม่คงที่ในแต่ละระดับการตอบสนอง
เราสามารถทดสอบความแตกต่างอย่างเป็นทางการได้โดยใช้ การทดสอบ Breusch-Pagan และแก้ไขปัญหานี้โดยใช้ ข้อผิดพลาดมาตรฐานที่แข็งแกร่ง