วิธีการดำเนินการถดถอยแบบขั้นตอนใน sas (พร้อมตัวอย่าง)


การถดถอยแบบขั้นตอน เป็นขั้นตอนที่เราสามารถใช้สร้างแบบจำลองการถดถอยจากชุดตัวแปรตัวทำนายโดยการป้อนและลบตัวทำนายในลักษณะทีละขั้นตอนในแบบจำลองจนกระทั่งไม่มีเหตุผลที่ถูกต้องทางสถิติอีกต่อไปในการป้อนหรือ ลบเพิ่มเติม

เป้าหมายของการถดถอยแบบขั้นตอนคือการสร้างแบบจำลองการถดถอยที่รวมตัวแปรทำนายทั้งหมดที่มีความเกี่ยวข้องอย่างมีนัยสำคัญทางสถิติกับ ตัวแปรตอบสนอง

หากต้องการดำเนินการถดถอยแบบขั้นตอนใน SAS คุณสามารถใช้ PROC REG กับคำสั่ง SELECTION ได้

ตัวอย่างต่อไปนี้แสดงวิธีการถดถอยแบบขั้นตอนใน SAS ในทางปฏิบัติ

ตัวอย่าง: การดำเนินการถดถอยทีละขั้นตอนใน SAS

สมมติว่าเรามีชุดข้อมูลต่อไปนี้ใน SAS ที่มีตัวแปรทำนายสี่ตัว (x1, x2, x3, x4) และตัวแปรตอบสนองหนึ่งตัว (y):

 /*create dataset*/
data my_data;
    input x1 x2 x3 x4 y;
    datalines ;
1 4 10 13 78
2 4 12 14 81
5 3 7 10 75
8 2 13 9 97
10 5 12 5 95
14 7 8 6 90
17 8 10 6 86 
19 5 15 5 90
20 5 12 4 93
21 4 10 3 95
;
run ;

/*view dataset*/
proc print data =my_data;

ตอนนี้ สมมติว่าเราต้องการพิจารณาว่าการรวมกันของตัวแปรทำนายใดจะสร้าง แบบจำลองการถดถอยเชิงเส้นพหุคูณ ที่ดีที่สุด

เมื่อเราพูดถึงแบบจำลองการถดถอยที่ “ดีที่สุด” เราหมายถึงแบบจำลองที่เพิ่มหรือลดการวัดบางอย่างให้สูงสุด

มีตัวชี้วัดสองตัวที่เรามักใช้ในการประเมินว่าแบบจำลองการถดถอยใดดีที่สุดในกลุ่มของแบบจำลองที่เป็นไปได้:

1. ค่า R-squared ที่ปรับปรุงแล้ว : ค่า R-squared ที่ปรับปรุงแล้ว จะบอกเราถึงประโยชน์ของแบบจำลอง ซึ่งปรับตามจำนวนตัวทำนายในแบบจำลอง แบบจำลองที่มีค่า R-squared ที่ปรับสูงสุดถือว่าดีที่สุด

2. AIC : Akaike Information Criterion (AIC) เป็นตัวชี้วัดที่ใช้ในการเปรียบเทียบความพอดีของแบบจำลองการถดถอยต่างๆ รุ่นที่มีค่า AIC ต่ำที่สุดถือว่าดีที่สุด

โชคดีที่เราสามารถคำนวณทั้งค่า R-squared และ AIC พอดีสำหรับแบบจำลองการถดถอยใน SAS โดยใช้ PROC REG พร้อมด้วยคำสั่ง SELECTION

รหัสต่อไปนี้แสดงวิธีการทำเช่นนี้:

 /*perform stepwise multiple linear regression*/
proc reg data =my_data outest =est;
    model y=x1 x2 x3 x4 / selection=adjrsq aic ;
    output out =out p=pr=r;
run ;
quit ; 

การถดถอยทีละขั้นตอนใน SAS

เอาต์พุตจะแสดงค่า R-squared และ AIC ที่พอดีสำหรับแบบจำลองการถดถอยเชิงเส้นหลายตัวที่เป็นไปได้แต่ละรายการ

จากผลลัพธ์เราจะเห็นว่าค่าที่มีค่า R กำลังสองที่ปรับสูงสุด และ ค่า AIC ต่ำสุดคือแบบจำลองการถดถอยที่ใช้เพียง x3 และ x4 เป็นตัวแปรทำนายเท่านั้น

ดังนั้นเราจึงขอประกาศว่ารุ่นต่อไปนี้ “ดีที่สุด” ในบรรดารุ่นที่เป็นไปได้ทั้งหมด:

y = ข 0 + ข 1 (x3) + ข 2 (x4)

โมเดลการถดถอยเฉพาะนี้มีหน่วยวัดต่อไปนี้:

  • ปรับค่า R-squared แล้ว: 0.5923
  • ไอซี: 34.2921

หมายเหตุเกี่ยวกับการเลือกแบบจำลองการถดถอยที่ “ดีที่สุด”

โปรดทราบว่าบางครั้งแบบจำลองที่มีค่า R-squared ที่ปรับสูงสุดก็ไม่ได้มีค่า AIC ต่ำที่สุดเสมอไป

เมื่อต้องตัดสินใจว่าแบบจำลองการถดถอยแบบใดดีที่สุด R-squared และ AIC ที่ปรับปรุงแล้วจะเป็นข้อเสนอแนะ แต่ในโลกแห่งความเป็นจริง คุณอาจจำเป็นต้องใช้ความเชี่ยวชาญด้านโดเมนเพื่อพิจารณาว่าแบบจำลองใดดีที่สุด

นอกจากนี้ยังอาจเป็นการฉลาดที่จะเลือก แบบจำลองที่รอบคอบ นั่นคือแบบจำลองที่ได้ระดับความพอดีที่ต้องการโดยใช้ตัวแปรทำนายน้อยที่สุด

เหตุผลเบื้องหลังแบบจำลองประเภทนี้เกิดจากแนวคิด เรื่องมีดโกนของ Occam (บางครั้งเรียกว่า “หลักการ parsimony”) ซึ่งกล่าวว่าคำอธิบายที่ง่ายที่สุดน่าจะเป็นคำอธิบายที่ถูกต้อง

เมื่อนำไปใช้กับสถิติแล้ว ควรเลือกใช้แบบจำลองที่มีพารามิเตอร์น้อยแต่มีความพอดีในระดับที่น่าพอใจมากกว่าแบบจำลองที่มีพารามิเตอร์มากมายและมีระดับความพอดีที่สูงกว่าเล็กน้อยเท่านั้น

แหล่งข้อมูลเพิ่มเติม

บทช่วยสอนต่อไปนี้จะอธิบายวิธีดำเนินการงานทั่วไปอื่นๆ ใน SAS:

วิธีดำเนินการถดถอยเชิงเส้นอย่างง่ายใน SAS
วิธีดำเนินการถดถอยเชิงเส้นพหุคูณใน SAS
วิธีดำเนินการถดถอยพหุนามใน SAS
วิธีดำเนินการถดถอยโลจิสติกใน SAS

เพิ่มความคิดเห็น

อีเมลของคุณจะไม่แสดงให้คนอื่นเห็น ช่องข้อมูลจำเป็นถูกทำเครื่องหมาย *