เมื่อใดที่คุณควรใช้การถดถอยพหุนาม
การถดถอยพหุนาม เป็นเทคนิคที่เราสามารถใช้เพื่อให้พอดีกับแบบจำลองการถดถอย เมื่อความสัมพันธ์ระหว่างตัวแปรทำนายและตัวแปรตอบสนองไม่เป็นเชิงเส้น
แบบจำลองการถดถอยพหุนามมีรูปแบบดังต่อไปนี้:
Y = β 0 + β 1 X + β 2 X 2 + … + β ชั่วโมง
ในทางปฏิบัติ มีสามวิธีง่ายๆ ในการพิจารณาว่าคุณควรใช้การถดถอยพหุนามกับแบบจำลองที่ง่ายกว่า เช่น การถดถอยเชิงเส้น หรือไม่
1. สร้างแผนภาพกระจายของตัวแปรทำนายและตัวแปรตอบสนอง
วิธีที่ง่ายที่สุดในการพิจารณาว่าคุณควรใช้การถดถอยพหุนามหรือไม่คือการสร้างแผนภาพกระจายอย่างง่ายของตัวแปรทำนายและตัวแปรตอบสนอง
ตัวอย่างเช่น สมมติว่าเราต้องการใช้ตัวแปรทำนาย “ชั่วโมงเรียน” เพื่อทำนายเกรดที่นักเรียนจะได้รับในการสอบปลายภาค
ก่อนที่จะปรับโมเดลการถดถอยให้เหมาะสม เราสามารถสร้างแผนภูมิกระจายของชั่วโมงที่ศึกษาเทียบกับผลการสอบได้ก่อน สมมติว่า Scatterplot ของเรามีลักษณะดังนี้:

ความสัมพันธ์ระหว่างชั่วโมงที่เรียนกับผลการสอบจะปรากฏ เป็นเส้นตรง ดังนั้นจึงเหมาะสมที่จะใส่แบบจำลองการถดถอยเชิงเส้นอย่างง่ายกับชุดข้อมูลนี้
อย่างไรก็ตาม สมมติว่า Scatterplot มีลักษณะดังนี้:

ความสัมพันธ์นี้ดูเหมือน ไม่เป็นเชิงเส้น อีกสักหน่อย ซึ่งบอกเราว่าอาจเป็นการฉลาดที่จะใส่แบบจำลองการถดถอยพหุนามแทน
2. สร้างกราฟของค่าติดตั้งและค่าคงเหลือ
อีกวิธีในการพิจารณาว่าคุณควรใช้การถดถอยพหุนามหรือไม่คือการปรับแบบจำลองการถดถอยเชิงเส้นให้พอดีกับชุดข้อมูล จากนั้นจึงสร้าง พล็อตของค่าที่พอดีเทียบกับค่าคงเหลือ สำหรับแบบจำลอง
หากมีแนวโน้มไม่เชิงเส้นที่ชัดเจนในส่วนที่เหลือ แสดงว่าการถดถอยพหุนามอาจให้ความเหมาะสมกับข้อมูลมากกว่า
ตัวอย่างเช่น สมมติว่าเราพอดีกับแบบจำลองการถดถอยเชิงเส้นโดยใช้ชั่วโมงที่ศึกษาเป็นตัวแปรทำนายและคะแนนการสอบเป็นตัวแปรตอบสนอง จากนั้นสร้างพล็อตของค่าที่พอดีเทียบกับค่าคงเหลือต่อไปนี้:

ส่วนที่เหลือจะกระจัดกระจายแบบสุ่มรอบๆ ศูนย์โดยไม่มีรูปแบบที่ชัดเจน ซึ่งบ่งชี้ว่าแบบจำลองเชิงเส้นมีความเหมาะสมกับข้อมูล
อย่างไรก็ตาม สมมติว่าพล็อตค่าพอดีเทียบกับค่าคงเหลือของเรามีลักษณะดังนี้:

จากกราฟ เราจะเห็นได้ว่ามีรูปแบบที่ไม่เป็นเชิงเส้นชัดเจนในสารตกค้าง – สารตกค้างแสดงรูปร่างเป็นรูปตัว “U”
สิ่งนี้บอกเราว่าแบบจำลองเชิงเส้นไม่เหมาะสมสำหรับข้อมูลเฉพาะนี้ และอาจเป็นการดีกว่าที่จะปรับแบบจำลองการถดถอยพหุนามแทน
3. คำนวณค่า R-squared ที่ปรับแล้วของแบบจำลอง
อีกวิธีในการพิจารณาว่าคุณควรใช้การถดถอยพหุนามหรือไม่คือ ปรับทั้งแบบจำลองการถดถอยเชิงเส้นและแบบจำลองการถดถอยพหุนามให้เหมาะสม แล้วคำนวณค่า R-squared ที่พอดีสำหรับทั้งสองรุ่น
ค่า R-squared ที่ปรับแล้วแสดงถึงสัดส่วนของความแปรปรวนในตัวแปรตอบสนองที่สามารถอธิบายได้ด้วยตัวแปรตัวทำนายในแบบจำลอง และ ปรับ ตามจำนวนตัวแปรตัวทำนายในแบบจำลอง
แบบจำลองที่มีค่า R Square ที่ปรับสูงสุดคือแบบจำลองที่สามารถใช้ตัวแปรทำนายเพื่ออธิบายความแปรผันของตัวแปรตอบสนองได้ดีที่สุด
แหล่งข้อมูลเพิ่มเติม
บทช่วยสอนต่อไปนี้จะอธิบายวิธีการถดถอยพหุนามโดยใช้ซอฟต์แวร์ทางสถิติต่างๆ
ความรู้เบื้องต้นเกี่ยวกับการถดถอยพหุนาม
วิธีดำเนินการถดถอยพหุนามใน R
วิธีดำเนินการถดถอยพหุนามใน Python
วิธีการดำเนินการถดถอยพหุนามใน Excel