ทำความเข้าใจกับข้อผิดพลาดมาตรฐานของการถดถอย
เมื่อเราใส่ แบบจำลองการถดถอย เข้ากับชุดข้อมูล เรามักจะสนใจว่าแบบจำลองการถดถอย “เข้ากับ” ชุดข้อมูลได้ดีเพียงใด ตัวชี้วัดที่ใช้กันทั่วไปสองตัวในการวัดความดีของความพอดี ได้แก่ R กำลังสอง ( R2 ) และ ข้อ ผิดพลาดมาตรฐานของการถดถอย ซึ่งมักเขียนว่า S
บทช่วยสอนนี้จะอธิบายวิธีตีความข้อผิดพลาดมาตรฐานของการถดถอย (S) รวมถึงสาเหตุที่ให้ข้อมูลที่เป็นประโยชน์มากกว่า R 2
ข้อผิดพลาดมาตรฐานเทียบกับ R-squared ในการถดถอย
สมมติว่าเรามีชุดข้อมูลง่ายๆ ที่แสดงจำนวนชั่วโมงที่นักเรียน 12 คนเรียนต่อวันเป็นเวลาหนึ่งเดือนก่อนที่จะถึงการสอบที่สำคัญ รวมถึงคะแนนสอบของพวกเขา:
หากเราใส่แบบจำลองการถดถอยเชิงเส้นอย่างง่ายเข้ากับชุดข้อมูลนี้ใน Excel เราจะได้รับผลลัพธ์ต่อไปนี้:
R กำลังสอง คือสัดส่วนของความแปรปรวนในตัวแปรตอบสนองที่สามารถอธิบายได้ด้วยตัวแปรทำนาย ในกรณีนี้ สามารถอธิบายความแปรปรวนของคะแนนสอบได้ 65.76% ด้วยจำนวนชั่วโมงที่เรียน
ข้อผิดพลาดมาตรฐานของการถดถอย คือระยะห่างเฉลี่ยระหว่างค่าที่สังเกตได้กับเส้นการถดถอย ในกรณีนี้ ค่าที่สังเกตได้จะเบี่ยงเบนโดยเฉลี่ย 4.89 หน่วยจากเส้นถดถอย
หากเราพล็อตจุดข้อมูลจริงด้วยเส้นการถดถอย เราจะเห็นสิ่งนี้ได้ชัดเจนยิ่งขึ้น:
โปรดทราบว่าข้อสังเกตบางอย่างอยู่ใกล้เส้นการถดถอยมาก ในขณะที่บางอย่างไม่เป็นเช่นนั้น แต่โดยเฉลี่ยแล้วค่าที่สังเกตได้จะเบี่ยงเบนไป 4.19 หน่วย จากเส้นถดถอย
ข้อผิดพลาดมาตรฐานของการถดถอยมีประโยชน์อย่างยิ่งเนื่องจากสามารถใช้เพื่อประเมินความแม่นยำของการทำนายได้ ประมาณ 95% ของการสังเกตควรอยู่ภายใน +/- สองข้อผิดพลาดมาตรฐานของการถดถอย ซึ่งเป็นการประมาณอย่างรวดเร็วของช่วงการคาดการณ์ 95%
หากเราต้องการทำนายโดยใช้แบบจำลองการถดถอย ค่าคลาดเคลื่อนมาตรฐานของการถดถอยอาจเป็นการวัดที่มีประโยชน์มากกว่าค่า R-squared เพราะมันทำให้เราเข้าใจได้ว่าการทำนายของเรามีความแม่นยำเพียงใดในแง่ของหน่วย
เพื่อแสดงให้เห็นว่าเหตุใดข้อผิดพลาดมาตรฐานของการถดถอยอาจเป็นการวัดที่มีประโยชน์มากกว่าในการประเมิน “ความพอดี” ของแบบจำลอง ลองพิจารณาชุดข้อมูลตัวอย่างอื่นที่แสดงจำนวนชั่วโมงที่นักเรียน 12 คนเรียนต่อวันเป็นเวลาหนึ่งเดือนก่อนการสอบที่สำคัญตลอดจน ผลการสอบ:
โปรดทราบว่านี่เป็นชุดข้อมูลเดียวกันกับเมื่อก่อน ยกเว้นว่าค่า s ทั้งหมด จะลดลงครึ่งหนึ่ง ดังนั้น นักเรียนในชุดข้อมูลนี้จึงเรียนครึ่งหนึ่งของเวลาของนักเรียนในชุดข้อมูลก่อนหน้า และได้รับคะแนนสอบครึ่งหนึ่งพอดี
หากเราใส่แบบจำลองการถดถอยเชิงเส้นอย่างง่ายเข้ากับชุดข้อมูลนี้ใน Excel เราจะได้รับผลลัพธ์ต่อไปนี้:
โปรดทราบว่า R กำลังสองของ 65.76% เหมือนกับในตัวอย่างก่อนหน้าทุกประการ
อย่างไรก็ตาม ข้อผิดพลาดมาตรฐานของการถดถอยคือ 2.095 ซึ่งเท่ากับครึ่งหนึ่งของข้อผิดพลาดมาตรฐานของการถดถอยในตัวอย่างก่อนหน้านี้
หากเราพล็อตจุดข้อมูลจริงด้วยเส้นการถดถอย เราจะเห็นสิ่งนี้ได้ชัดเจนยิ่งขึ้น:
สังเกตว่าการสังเกตนั้นกระจุกตัวกันใกล้เส้นการถดถอยมากขึ้นอย่างไร โดยเฉลี่ยแล้วค่าที่สังเกตได้จะอยู่ห่างจากเส้นถดถอย 2,095 หน่วย
ดังนั้น แม้ว่าแบบจำลองการถดถอยทั้งสองจะมี R-กำลังสองอยู่ที่ 65.76% แต่เรารู้ว่าแบบจำลองที่สองจะให้การคาดการณ์ที่แม่นยำยิ่งขึ้น เนื่องจากมีข้อผิดพลาดมาตรฐานการถดถอยที่ต่ำกว่า
ประโยชน์ของการใช้ข้อผิดพลาดมาตรฐาน
ค่าคลาดเคลื่อนมาตรฐานของการถดถอย (S) มักจะมีประโยชน์มากกว่าการทราบค่ากำลังสอง R ของแบบจำลอง เพราะมันให้หน่วยจริงแก่เรา หากเราต้องการใช้แบบจำลองการถดถอยเพื่อสร้างการคาดการณ์ S สามารถบอกเราได้อย่างง่ายดายว่าแบบจำลองนั้นแม่นยำเพียงพอที่จะนำไปใช้ในการทำนายหรือไม่
ตัวอย่างเช่น สมมติว่าเราต้องการสร้างช่วงการทำนาย 95% ซึ่งเราสามารถทำนายคะแนนสอบได้ภายใน 6 คะแนนจากคะแนนจริง
แบบจำลองแรกของเรามีค่า R-squared อยู่ที่ 65.76% แต่นั่นไม่ได้บอกอะไรเราเกี่ยวกับความแม่นยำของช่วงการทำนายของเรา โชคดีที่เรายังทราบด้วยว่ารุ่นแรกมี S อยู่ที่ 4.19 ซึ่งหมายความว่าช่วงการคาดการณ์ 95% จะอยู่ที่ประมาณ 2*4.19 = +/- กว้าง 8.38 หน่วย ซึ่งกว้างเกินไปสำหรับช่วงการคาดการณ์ของเรา
โมเดลที่สองของเรามีค่า R-squared อยู่ที่ 65.76% แต่อีกครั้ง สิ่งนี้ไม่ได้บอกเราเกี่ยวกับความแม่นยำของช่วงการทำนายของเราเลย อย่างไรก็ตาม เรารู้ว่ารุ่นที่สองมีค่า S เท่ากับ 2.095 ซึ่งหมายความว่าช่วงการทำนาย 95% จะอยู่ที่ประมาณ 2*2.095 = +/- 4.19 หน่วย ซึ่งน้อยกว่า 6 และแม่นยำเพียงพอที่จะใช้ในการสร้างช่วงการทำนาย
อ่านเพิ่มเติม
รู้เบื้องต้นเกี่ยวกับการถดถอยเชิงเส้นอย่างง่าย
ค่า R-กำลังสองที่ดีคืออะไร?