วิธีการคำนวณค่าคงเหลือในการวิเคราะห์การถดถอย
การถดถอยเชิงเส้นอย่างง่าย เป็นวิธีการทางสถิติที่คุณสามารถใช้เพื่อทำความเข้าใจความสัมพันธ์ระหว่างตัวแปรสองตัว นั่นคือ x และ y
ตัวแปร x เรียกว่าตัวแปรทำนาย ตัวแปรอื่น y เรียกว่า ตัวแปรตอบสนอง
ตัวอย่างเช่น สมมติว่าเรามีชุดข้อมูลต่อไปนี้ซึ่งมีน้ำหนักและส่วนสูงเท่ากับบุคคล 7 คน:
ให้ น้ำหนัก เป็นตัวแปรทำนาย และให้ ความสูง เป็นตัวแปรตอบสนอง
หากเราสร้างกราฟตัวแปรทั้งสองนี้โดยใช้แผนภาพ กระจาย โดยมีน้ำหนักบนแกน x และความสูงบนแกน y จะได้หน้าตาดังนี้:
จากแผนภาพกระจาย เราจะเห็นได้อย่างชัดเจนว่าเมื่อน้ำหนักเพิ่มขึ้น ความสูงก็มีแนวโน้มที่จะเพิ่มขึ้นด้วย แต่ใน การหาความ สัมพันธ์ระหว่างน้ำหนักและส่วนสูงจริงๆ เราจำเป็นต้องใช้การถดถอยเชิงเส้น
เมื่อใช้การถดถอยเชิงเส้น เราสามารถค้นหาบรรทัดที่ “เหมาะสม” กับข้อมูลของเราได้ดีที่สุด:
สูตรสำหรับบรรทัดที่เหมาะสมที่สุดนี้เขียนไว้:
ŷ = ข 0 + ข 1 x
โดยที่ ŷ คือค่าทำนายของตัวแปรตอบสนอง b 0 คือจุดตัด b 1 คือสัมประสิทธิ์การถดถอย และ x คือค่าของตัวแปรทำนาย
ในตัวอย่างนี้ เส้นที่เหมาะสมที่สุดคือ:
ขนาด = 32.783 + 0.2001*(น้ำหนัก)
วิธีการคำนวณปริมาณคงเหลือ
โปรดทราบว่าจุดข้อมูลใน Scatterplot ของเราไม่ได้สอดคล้องกับบรรทัดที่เหมาะสมที่สุดเสมอไป:
ความแตกต่างระหว่างจุดข้อมูลและเส้นนี้เรียกว่า ส่วนที่เหลือ สำหรับแต่ละจุดข้อมูล เราสามารถคำนวณค่าคงเหลือของจุดนั้นได้โดยนำผลต่างระหว่างค่าจริงและค่าที่คาดการณ์ไว้จากเส้นที่เหมาะสมที่สุด
ตัวอย่างที่ 1: การคำนวณปริมาณคงเหลือ
ตัวอย่างเช่น จำน้ำหนักและส่วนสูงของบุคคลทั้ง 7 คนในชุดข้อมูลของเรา:
คนแรกหนัก 140 ปอนด์ และสูง 60 นิ้ว.
หากต้องการทราบความสูงที่คาดหวังของบุคคลนี้ เราสามารถแทนน้ำหนักลงในเส้นสมการที่เหมาะสมที่สุดได้:
ขนาด = 32.783 + 0.2001*(น้ำหนัก)
ดังนั้น ขนาดที่คาดการณ์ของบุคคลนี้คือ:
ส่วนสูง = 32.783 + 0.2001*(140)
ความสูง = 60.797 นิ้ว
ดังนั้นค่าคงเหลือสำหรับจุดข้อมูลนี้คือ 60 – 60.797 = -0.797
ตัวอย่างที่ 2: การคำนวณปริมาณคงเหลือ
เราสามารถใช้กระบวนการเดียวกับที่ใช้ข้างต้นในการคำนวณค่าคงเหลือสำหรับจุดข้อมูลแต่ละจุด ตัวอย่างเช่น ลองคำนวณส่วนที่เหลือของบุคคลที่สองในชุดข้อมูลของเรา:
รายที่ 2 หนัก 155 ปอนด์ และส่วนสูง 62 นิ้ว.
หากต้องการทราบความสูงที่คาดหวังของบุคคลนี้ เราสามารถแทนน้ำหนักลงในเส้นสมการที่เหมาะสมที่สุดได้:
ขนาด = 32.783 + 0.2001*(น้ำหนัก)
ดังนั้น ขนาดที่คาดการณ์ของบุคคลนี้คือ:
ส่วนสูง = 32.783 + 0.2001*(155)
ความสูง = 63.7985 นิ้ว
ดังนั้นค่าคงเหลือสำหรับจุดข้อมูลนี้คือ 62 – 63.7985 = -1.7985
คำนวณยอดคงเหลือทั้งหมด
โดยใช้วิธีเดียวกันกับสองตัวอย่างก่อนหน้านี้ เราสามารถคำนวณค่าคงเหลือสำหรับแต่ละจุดข้อมูลได้:
โปรดทราบว่าส่วนที่เหลือบางส่วนเป็นค่าบวกและบางส่วนเป็นลบ ถ้าเราบวกส่วนที่เหลือทั้งหมด ผลรวมทั้งหมดจะเป็นศูนย์
นี่เป็นเพราะการถดถอยเชิงเส้นจะค้นหาเส้นที่ลดกำลังสองรวมของส่วนที่เหลือให้เหลือน้อยที่สุด ซึ่งเป็นสาเหตุที่เส้นผ่านข้อมูลได้อย่างสมบูรณ์แบบ โดยมีจุดข้อมูลบางจุดอยู่เหนือเส้นและจุดอื่นๆ อยู่ต่ำกว่าเส้น
ดูสารตกค้าง
โปรดจำไว้ว่า ส่วนที่เหลือ เป็นเพียงระยะห่างระหว่างค่าที่แท้จริงของข้อมูลกับค่าที่ทำนายโดยเส้นการถดถอยที่เหมาะสมที่สุด นี่คือลักษณะของระยะทางเหล่านี้เมื่อมองเห็นบนพอยต์คลาวด์:
โปรดทราบว่าส่วนที่เหลือบางส่วนมีขนาดใหญ่กว่าส่วนที่เหลือ นอกจากนี้ สารตกค้างบางส่วนเป็นค่าบวกและบางส่วนเป็นค่าลบ ดังที่เราได้กล่าวไปแล้ว
การสร้างเส้นทางที่ยังเหลืออยู่
จุดในการคำนวณค่าคงเหลือคือการดูว่าเส้นถดถอยเหมาะสมกับข้อมูลได้ดีเพียงใด
ปริมาณคงเหลือที่มากขึ้นบ่งชี้ว่าเส้นการถดถอยไม่พอดีกับข้อมูล กล่าวคือ จุดข้อมูลจริงไม่ได้ประมาณเส้นการถดถอย
ปริมาณที่เหลือน้อยกว่าบ่งชี้ว่าเส้นการถดถอยเหมาะสมกับข้อมูลมากกว่า นั่นคือจุดข้อมูลจริงจะอยู่ใกล้กับเส้นการถดถอยมากกว่า
ประเภทของพล็อตที่มีประโยชน์สำหรับการแสดงภาพส่วนที่เหลือทั้งหมดในคราวเดียวคือพล็อตส่วนที่เหลือ พล็อตส่วนที่เหลือ คือประเภทของพล็อตที่แสดงค่าที่คาดการณ์ไว้กับส่วนที่เหลือสำหรับแบบจำลองการถดถอย
พล็อตประเภทนี้มักใช้ในการประเมินว่าแบบจำลองการถดถอยเชิงเส้นนั้นเหมาะสมกับชุดข้อมูลที่กำหนดหรือไม่ และเพื่อตรวจสอบความต่างกัน ของ ส่วนที่เหลือ
ดู บทช่วยสอนนี้ เพื่อเรียนรู้วิธีสร้างพล็อตที่เหลือสำหรับแบบจำลองการถดถอยเชิงเส้นอย่างง่ายใน Excel