วิธีการคำนวณค่าคงเหลือในการวิเคราะห์การถดถอย


การถดถอยเชิงเส้นอย่างง่าย เป็นวิธีการทางสถิติที่คุณสามารถใช้เพื่อทำความเข้าใจความสัมพันธ์ระหว่างตัวแปรสองตัว นั่นคือ x และ y

ตัวแปร x เรียกว่าตัวแปรทำนาย ตัวแปรอื่น y เรียกว่า ตัวแปรตอบสนอง

ตัวอย่างเช่น สมมติว่าเรามีชุดข้อมูลต่อไปนี้ซึ่งมีน้ำหนักและส่วนสูงเท่ากับบุคคล 7 คน:

การถดถอยเชิงเส้นอย่างง่าย

ให้ น้ำหนัก เป็นตัวแปรทำนาย และให้ ความสูง เป็นตัวแปรตอบสนอง

หากเราสร้างกราฟตัวแปรทั้งสองนี้โดยใช้แผนภาพ กระจาย โดยมีน้ำหนักบนแกน x และความสูงบนแกน y จะได้หน้าตาดังนี้:

จากแผนภาพกระจาย เราจะเห็นได้อย่างชัดเจนว่าเมื่อน้ำหนักเพิ่มขึ้น ความสูงก็มีแนวโน้มที่จะเพิ่มขึ้นด้วย แต่ใน การหาความ สัมพันธ์ระหว่างน้ำหนักและส่วนสูงจริงๆ เราจำเป็นต้องใช้การถดถอยเชิงเส้น

เมื่อใช้การถดถอยเชิงเส้น เราสามารถค้นหาบรรทัดที่ “เหมาะสม” กับข้อมูลของเราได้ดีที่สุด:

สูตรสำหรับบรรทัดที่เหมาะสมที่สุดนี้เขียนไว้:

ŷ = ข 0 + ข 1 x

โดยที่ ŷ คือค่าทำนายของตัวแปรตอบสนอง b 0 คือจุดตัด b 1 คือสัมประสิทธิ์การถดถอย และ x คือค่าของตัวแปรทำนาย

ในตัวอย่างนี้ เส้นที่เหมาะสมที่สุดคือ:

ขนาด = 32.783 + 0.2001*(น้ำหนัก)

วิธีการคำนวณปริมาณคงเหลือ

โปรดทราบว่าจุดข้อมูลใน Scatterplot ของเราไม่ได้สอดคล้องกับบรรทัดที่เหมาะสมที่สุดเสมอไป:

ความแตกต่างระหว่างจุดข้อมูลและเส้นนี้เรียกว่า ส่วนที่เหลือ สำหรับแต่ละจุดข้อมูล เราสามารถคำนวณค่าคงเหลือของจุดนั้นได้โดยนำผลต่างระหว่างค่าจริงและค่าที่คาดการณ์ไว้จากเส้นที่เหมาะสมที่สุด

ตัวอย่างที่ 1: การคำนวณปริมาณคงเหลือ

ตัวอย่างเช่น จำน้ำหนักและส่วนสูงของบุคคลทั้ง 7 คนในชุดข้อมูลของเรา:

การถดถอยเชิงเส้นอย่างง่าย

คนแรกหนัก 140 ปอนด์ และสูง 60 นิ้ว.

หากต้องการทราบความสูงที่คาดหวังของบุคคลนี้ เราสามารถแทนน้ำหนักลงในเส้นสมการที่เหมาะสมที่สุดได้:

ขนาด = 32.783 + 0.2001*(น้ำหนัก)

ดังนั้น ขนาดที่คาดการณ์ของบุคคลนี้คือ:

ส่วนสูง = 32.783 + 0.2001*(140)

ความสูง = 60.797 นิ้ว

ดังนั้นค่าคงเหลือสำหรับจุดข้อมูลนี้คือ 60 – 60.797 = -0.797

ตัวอย่างที่ 2: การคำนวณปริมาณคงเหลือ

เราสามารถใช้กระบวนการเดียวกับที่ใช้ข้างต้นในการคำนวณค่าคงเหลือสำหรับจุดข้อมูลแต่ละจุด ตัวอย่างเช่น ลองคำนวณส่วนที่เหลือของบุคคลที่สองในชุดข้อมูลของเรา:

การถดถอยเชิงเส้นอย่างง่าย

รายที่ 2 หนัก 155 ปอนด์ และส่วนสูง 62 นิ้ว.

หากต้องการทราบความสูงที่คาดหวังของบุคคลนี้ เราสามารถแทนน้ำหนักลงในเส้นสมการที่เหมาะสมที่สุดได้:

ขนาด = 32.783 + 0.2001*(น้ำหนัก)

ดังนั้น ขนาดที่คาดการณ์ของบุคคลนี้คือ:

ส่วนสูง = 32.783 + 0.2001*(155)

ความสูง = 63.7985 นิ้ว

ดังนั้นค่าคงเหลือสำหรับจุดข้อมูลนี้คือ 62 – 63.7985 = -1.7985

คำนวณยอดคงเหลือทั้งหมด

โดยใช้วิธีเดียวกันกับสองตัวอย่างก่อนหน้านี้ เราสามารถคำนวณค่าคงเหลือสำหรับแต่ละจุดข้อมูลได้:

โปรดทราบว่าส่วนที่เหลือบางส่วนเป็นค่าบวกและบางส่วนเป็นลบ ถ้าเราบวกส่วนที่เหลือทั้งหมด ผลรวมทั้งหมดจะเป็นศูนย์

นี่เป็นเพราะการถดถอยเชิงเส้นจะค้นหาเส้นที่ลดกำลังสองรวมของส่วนที่เหลือให้เหลือน้อยที่สุด ซึ่งเป็นสาเหตุที่เส้นผ่านข้อมูลได้อย่างสมบูรณ์แบบ โดยมีจุดข้อมูลบางจุดอยู่เหนือเส้นและจุดอื่นๆ อยู่ต่ำกว่าเส้น

ดูสารตกค้าง

โปรดจำไว้ว่า ส่วนที่เหลือ เป็นเพียงระยะห่างระหว่างค่าที่แท้จริงของข้อมูลกับค่าที่ทำนายโดยเส้นการถดถอยที่เหมาะสมที่สุด นี่คือลักษณะของระยะทางเหล่านี้เมื่อมองเห็นบนพอยต์คลาวด์:

โปรดทราบว่าส่วนที่เหลือบางส่วนมีขนาดใหญ่กว่าส่วนที่เหลือ นอกจากนี้ สารตกค้างบางส่วนเป็นค่าบวกและบางส่วนเป็นค่าลบ ดังที่เราได้กล่าวไปแล้ว

การสร้างเส้นทางที่ยังเหลืออยู่

จุดในการคำนวณค่าคงเหลือคือการดูว่าเส้นถดถอยเหมาะสมกับข้อมูลได้ดีเพียงใด

ปริมาณคงเหลือที่มากขึ้นบ่งชี้ว่าเส้นการถดถอยไม่พอดีกับข้อมูล กล่าวคือ จุดข้อมูลจริงไม่ได้ประมาณเส้นการถดถอย

ปริมาณที่เหลือน้อยกว่าบ่งชี้ว่าเส้นการถดถอยเหมาะสมกับข้อมูลมากกว่า นั่นคือจุดข้อมูลจริงจะอยู่ใกล้กับเส้นการถดถอยมากกว่า

ประเภทของพล็อตที่มีประโยชน์สำหรับการแสดงภาพส่วนที่เหลือทั้งหมดในคราวเดียวคือพล็อตส่วนที่เหลือ พล็อตส่วนที่เหลือ คือประเภทของพล็อตที่แสดงค่าที่คาดการณ์ไว้กับส่วนที่เหลือสำหรับแบบจำลองการถดถอย

พล็อตประเภทนี้มักใช้ในการประเมินว่าแบบจำลองการถดถอยเชิงเส้นนั้นเหมาะสมกับชุดข้อมูลที่กำหนดหรือไม่ และเพื่อตรวจสอบความต่างกัน ของ ส่วนที่เหลือ

ดู บทช่วยสอนนี้ เพื่อเรียนรู้วิธีสร้างพล็อตที่เหลือสำหรับแบบจำลองการถดถอยเชิงเส้นอย่างง่ายใน Excel

เพิ่มความคิดเห็น

อีเมลของคุณจะไม่แสดงให้คนอื่นเห็น ช่องข้อมูลจำเป็นถูกทำเครื่องหมาย *