เมื่อใดที่คุณควรใช้การถดถอยพหุนาม


การถดถอยพหุนาม เป็นเทคนิคที่เราสามารถใช้เพื่อให้พอดีกับแบบจำลองการถดถอย เมื่อความสัมพันธ์ระหว่างตัวแปรทำนายและตัวแปรตอบสนองไม่เป็นเชิงเส้น

แบบจำลองการถดถอยพหุนามมีรูปแบบดังต่อไปนี้:

Y = β 0 + β 1 X + β 2 X 2 + … + β ชั่วโมง

ในทางปฏิบัติ มีสามวิธีง่ายๆ ในการพิจารณาว่าคุณควรใช้การถดถอยพหุนามกับแบบจำลองที่ง่ายกว่า เช่น การถดถอยเชิงเส้น หรือไม่

1. สร้างแผนภาพกระจายของตัวแปรทำนายและตัวแปรตอบสนอง

วิธีที่ง่ายที่สุดในการพิจารณาว่าคุณควรใช้การถดถอยพหุนามหรือไม่คือการสร้างแผนภาพกระจายอย่างง่ายของตัวแปรทำนายและตัวแปรตอบสนอง

ตัวอย่างเช่น สมมติว่าเราต้องการใช้ตัวแปรทำนาย “ชั่วโมงเรียน” เพื่อทำนายเกรดที่นักเรียนจะได้รับในการสอบปลายภาค

ก่อนที่จะปรับโมเดลการถดถอยให้เหมาะสม เราสามารถสร้างแผนภูมิกระจายของชั่วโมงที่ศึกษาเทียบกับผลการสอบได้ก่อน สมมติว่า Scatterplot ของเรามีลักษณะดังนี้:

ความสัมพันธ์ระหว่างชั่วโมงที่เรียนกับผลการสอบจะปรากฏ เป็นเส้นตรง ดังนั้นจึงเหมาะสมที่จะใส่แบบจำลองการถดถอยเชิงเส้นอย่างง่ายกับชุดข้อมูลนี้

อย่างไรก็ตาม สมมติว่า Scatterplot มีลักษณะดังนี้:

ความสัมพันธ์นี้ดูเหมือน ไม่เป็นเชิงเส้น อีกสักหน่อย ซึ่งบอกเราว่าอาจเป็นการฉลาดที่จะใส่แบบจำลองการถดถอยพหุนามแทน

2. สร้างกราฟของค่าติดตั้งและค่าคงเหลือ

อีกวิธีในการพิจารณาว่าคุณควรใช้การถดถอยพหุนามหรือไม่คือการปรับแบบจำลองการถดถอยเชิงเส้นให้พอดีกับชุดข้อมูล จากนั้นจึงสร้าง พล็อตของค่าที่พอดีเทียบกับค่าคงเหลือ สำหรับแบบจำลอง

หากมีแนวโน้มไม่เชิงเส้นที่ชัดเจนในส่วนที่เหลือ แสดงว่าการถดถอยพหุนามอาจให้ความเหมาะสมกับข้อมูลมากกว่า

ตัวอย่างเช่น สมมติว่าเราพอดีกับแบบจำลองการถดถอยเชิงเส้นโดยใช้ชั่วโมงที่ศึกษาเป็นตัวแปรทำนายและคะแนนการสอบเป็นตัวแปรตอบสนอง จากนั้นสร้างพล็อตของค่าที่พอดีเทียบกับค่าคงเหลือต่อไปนี้:

ส่วนที่เหลือจะกระจัดกระจายแบบสุ่มรอบๆ ศูนย์โดยไม่มีรูปแบบที่ชัดเจน ซึ่งบ่งชี้ว่าแบบจำลองเชิงเส้นมีความเหมาะสมกับข้อมูล

อย่างไรก็ตาม สมมติว่าพล็อตค่าพอดีเทียบกับค่าคงเหลือของเรามีลักษณะดังนี้:

จากกราฟ เราจะเห็นได้ว่ามีรูปแบบที่ไม่เป็นเชิงเส้นชัดเจนในสารตกค้าง – สารตกค้างแสดงรูปร่างเป็นรูปตัว “U”

สิ่งนี้บอกเราว่าแบบจำลองเชิงเส้นไม่เหมาะสมสำหรับข้อมูลเฉพาะนี้ และอาจเป็นการดีกว่าที่จะปรับแบบจำลองการถดถอยพหุนามแทน

3. คำนวณค่า R-squared ที่ปรับแล้วของแบบจำลอง

อีกวิธีในการพิจารณาว่าคุณควรใช้การถดถอยพหุนามหรือไม่คือ ปรับทั้งแบบจำลองการถดถอยเชิงเส้นและแบบจำลองการถดถอยพหุนามให้เหมาะสม แล้วคำนวณค่า R-squared ที่พอดีสำหรับทั้งสองรุ่น

ค่า R-squared ที่ปรับแล้วแสดงถึงสัดส่วนของความแปรปรวนในตัวแปรตอบสนองที่สามารถอธิบายได้ด้วยตัวแปรตัวทำนายในแบบจำลอง และ ปรับ ตามจำนวนตัวแปรตัวทำนายในแบบจำลอง

แบบจำลองที่มีค่า R Square ที่ปรับสูงสุดคือแบบจำลองที่สามารถใช้ตัวแปรทำนายเพื่ออธิบายความแปรผันของตัวแปรตอบสนองได้ดีที่สุด

แหล่งข้อมูลเพิ่มเติม

บทช่วยสอนต่อไปนี้จะอธิบายวิธีการถดถอยพหุนามโดยใช้ซอฟต์แวร์ทางสถิติต่างๆ

ความรู้เบื้องต้นเกี่ยวกับการถดถอยพหุนาม
วิธีดำเนินการถดถอยพหุนามใน R
วิธีดำเนินการถดถอยพหุนามใน Python
วิธีการดำเนินการถดถอยพหุนามใน Excel

เพิ่มความคิดเห็น

อีเมลของคุณจะไม่แสดงให้คนอื่นเห็น ช่องข้อมูลจำเป็นถูกทำเครื่องหมาย *