วิธีการดำเนินการถดถอยแบบขั้นตอนใน sas (พร้อมตัวอย่าง)
การถดถอยแบบขั้นตอน เป็นขั้นตอนที่เราสามารถใช้สร้างแบบจำลองการถดถอยจากชุดตัวแปรตัวทำนายโดยการป้อนและลบตัวทำนายในลักษณะทีละขั้นตอนในแบบจำลองจนกระทั่งไม่มีเหตุผลที่ถูกต้องทางสถิติอีกต่อไปในการป้อนหรือ ลบเพิ่มเติม
เป้าหมายของการถดถอยแบบขั้นตอนคือการสร้างแบบจำลองการถดถอยที่รวมตัวแปรทำนายทั้งหมดที่มีความเกี่ยวข้องอย่างมีนัยสำคัญทางสถิติกับ ตัวแปรตอบสนอง
หากต้องการดำเนินการถดถอยแบบขั้นตอนใน SAS คุณสามารถใช้ PROC REG กับคำสั่ง SELECTION ได้
ตัวอย่างต่อไปนี้แสดงวิธีการถดถอยแบบขั้นตอนใน SAS ในทางปฏิบัติ
ตัวอย่าง: การดำเนินการถดถอยทีละขั้นตอนใน SAS
สมมติว่าเรามีชุดข้อมูลต่อไปนี้ใน SAS ที่มีตัวแปรทำนายสี่ตัว (x1, x2, x3, x4) และตัวแปรตอบสนองหนึ่งตัว (y):
/*create dataset*/ data my_data; input x1 x2 x3 x4 y; datalines ; 1 4 10 13 78 2 4 12 14 81 5 3 7 10 75 8 2 13 9 97 10 5 12 5 95 14 7 8 6 90 17 8 10 6 86 19 5 15 5 90 20 5 12 4 93 21 4 10 3 95 ; run ; /*view dataset*/ proc print data =my_data;
ตอนนี้ สมมติว่าเราต้องการพิจารณาว่าการรวมกันของตัวแปรทำนายใดจะสร้าง แบบจำลองการถดถอยเชิงเส้นพหุคูณ ที่ดีที่สุด
เมื่อเราพูดถึงแบบจำลองการถดถอยที่ “ดีที่สุด” เราหมายถึงแบบจำลองที่เพิ่มหรือลดการวัดบางอย่างให้สูงสุด
มีตัวชี้วัดสองตัวที่เรามักใช้ในการประเมินว่าแบบจำลองการถดถอยใดดีที่สุดในกลุ่มของแบบจำลองที่เป็นไปได้:
1. ค่า R-squared ที่ปรับปรุงแล้ว : ค่า R-squared ที่ปรับปรุงแล้ว จะบอกเราถึงประโยชน์ของแบบจำลอง ซึ่งปรับตามจำนวนตัวทำนายในแบบจำลอง แบบจำลองที่มีค่า R-squared ที่ปรับสูงสุดถือว่าดีที่สุด
2. AIC : Akaike Information Criterion (AIC) เป็นตัวชี้วัดที่ใช้ในการเปรียบเทียบความพอดีของแบบจำลองการถดถอยต่างๆ รุ่นที่มีค่า AIC ต่ำที่สุดถือว่าดีที่สุด
โชคดีที่เราสามารถคำนวณทั้งค่า R-squared และ AIC พอดีสำหรับแบบจำลองการถดถอยใน SAS โดยใช้ PROC REG พร้อมด้วยคำสั่ง SELECTION
รหัสต่อไปนี้แสดงวิธีการทำเช่นนี้:
/*perform stepwise multiple linear regression*/ proc reg data =my_data outest =est; model y=x1 x2 x3 x4 / selection=adjrsq aic ; output out =out p=pr=r; run ; quit ;
เอาต์พุตจะแสดงค่า R-squared และ AIC ที่พอดีสำหรับแบบจำลองการถดถอยเชิงเส้นหลายตัวที่เป็นไปได้แต่ละรายการ
จากผลลัพธ์เราจะเห็นว่าค่าที่มีค่า R กำลังสองที่ปรับสูงสุด และ ค่า AIC ต่ำสุดคือแบบจำลองการถดถอยที่ใช้เพียง x3 และ x4 เป็นตัวแปรทำนายเท่านั้น
ดังนั้นเราจึงขอประกาศว่ารุ่นต่อไปนี้ “ดีที่สุด” ในบรรดารุ่นที่เป็นไปได้ทั้งหมด:
y = ข 0 + ข 1 (x3) + ข 2 (x4)
โมเดลการถดถอยเฉพาะนี้มีหน่วยวัดต่อไปนี้:
- ปรับค่า R-squared แล้ว: 0.5923
- ไอซี: 34.2921
หมายเหตุเกี่ยวกับการเลือกแบบจำลองการถดถอยที่ “ดีที่สุด”
โปรดทราบว่าบางครั้งแบบจำลองที่มีค่า R-squared ที่ปรับสูงสุดก็ไม่ได้มีค่า AIC ต่ำที่สุดเสมอไป
เมื่อต้องตัดสินใจว่าแบบจำลองการถดถอยแบบใดดีที่สุด R-squared และ AIC ที่ปรับปรุงแล้วจะเป็นข้อเสนอแนะ แต่ในโลกแห่งความเป็นจริง คุณอาจจำเป็นต้องใช้ความเชี่ยวชาญด้านโดเมนเพื่อพิจารณาว่าแบบจำลองใดดีที่สุด
นอกจากนี้ยังอาจเป็นการฉลาดที่จะเลือก แบบจำลองที่รอบคอบ นั่นคือแบบจำลองที่ได้ระดับความพอดีที่ต้องการโดยใช้ตัวแปรทำนายน้อยที่สุด
เหตุผลเบื้องหลังแบบจำลองประเภทนี้เกิดจากแนวคิด เรื่องมีดโกนของ Occam (บางครั้งเรียกว่า “หลักการ parsimony”) ซึ่งกล่าวว่าคำอธิบายที่ง่ายที่สุดน่าจะเป็นคำอธิบายที่ถูกต้อง
เมื่อนำไปใช้กับสถิติแล้ว ควรเลือกใช้แบบจำลองที่มีพารามิเตอร์น้อยแต่มีความพอดีในระดับที่น่าพอใจมากกว่าแบบจำลองที่มีพารามิเตอร์มากมายและมีระดับความพอดีที่สูงกว่าเล็กน้อยเท่านั้น
แหล่งข้อมูลเพิ่มเติม
บทช่วยสอนต่อไปนี้จะอธิบายวิธีดำเนินการงานทั่วไปอื่นๆ ใน SAS:
วิธีดำเนินการถดถอยเชิงเส้นอย่างง่ายใน SAS
วิธีดำเนินการถดถอยเชิงเส้นพหุคูณใน SAS
วิธีดำเนินการถดถอยพหุนามใน SAS
วิธีดำเนินการถดถอยโลจิสติกใน SAS