วิธีดำเนินการถดถอยเชิงเส้นพหุคูณใน sas
การถดถอยเชิงเส้นพหุคูณ เป็นวิธีการที่เราสามารถใช้เพื่อทำความเข้าใจความสัมพันธ์ระหว่างตัวแปรทำนายตั้งแต่สองตัวขึ้นไปกับ ตัวแปรตอบสนอง
บทช่วยสอนนี้จะอธิบายวิธีการถดถอยเชิงเส้นพหุคูณใน SAS
ขั้นตอนที่ 1: สร้างข้อมูล
สมมติว่าเราต้องการใช้แบบจำลองการถดถอยเชิงเส้นพหุคูณที่ใช้จำนวนชั่วโมงในการเรียนและจำนวนข้อสอบฝึกหัดเพื่อทำนายคะแนนสอบปลายภาคของนักเรียน:
คะแนนสอบ = β 0 + β 1 (ชั่วโมง) + β 2 (ข้อสอบเตรียมอุดมศึกษา)
ขั้นแรก เราจะใช้โค้ดต่อไปนี้เพื่อสร้างชุดข้อมูลที่มีข้อมูลนี้สำหรับนักเรียน 20 คน:
/*create dataset*/ data exam_data; input hours prep_exams score; datalines ; 1 1 76 2 3 78 2 3 85 4 5 88 2 2 72 1 2 69 5 1 94 4 1 94 2 0 88 4 3 92 4 4 90 3 3 75 6 2 96 5 4 90 3 4 82 4 4 85 6 5 99 2 1 83 1 0 62 2 1 76 ; run ;
ขั้นตอนที่ 2: ดำเนินการถดถอยเชิงเส้นพหุคูณ
ต่อไป เราจะใช้ proc reg เพื่อให้พอดีกับโมเดลการถดถอยเชิงเส้นหลายตัวกับข้อมูล:
/*fit multiple linear regression model*/ proc reg data =exam_data; model score = hours prep_exams; run ;

ต่อไปนี้เป็นวิธีการตีความตัวเลขที่เกี่ยวข้องมากที่สุดในแต่ละตาราง:
ตารางวิเคราะห์ช่องว่าง:
ค่า F โดยรวมของแบบจำลองการถดถอยคือ 23.46 และค่า p ที่สอดคล้องกันคือ <0.0001
เนื่องจากค่า p นี้น้อยกว่า 0.05 เราจึงสรุปได้ว่าแบบจำลองการถดถอยโดยรวมมีนัยสำคัญทางสถิติ
ตารางพอดีรุ่น:
ค่า R-Square บอกเราถึงเปอร์เซ็นต์ของการเปลี่ยนแปลงของคะแนนสอบ ซึ่งสามารถอธิบายได้ด้วยจำนวนชั่วโมงที่เรียนและจำนวนการสอบเพื่อเตรียมสอบ
โดยทั่วไป ยิ่ง ค่า R-squared ของแบบจำลองการถดถอยมีค่ามากเท่าใด ตัวแปรทำนายก็จะทำนายค่าของตัวแปรตอบสนองได้ดีขึ้นเท่านั้น
ในกรณีนี้ 73.4% ของการเปลี่ยนแปลงของคะแนนสอบสามารถอธิบายได้ด้วยจำนวนชั่วโมงเรียนและจำนวนการสอบเพื่อเตรียมสอบ
ค่า Root MSE ยังมีประโยชน์ในการทราบอีกด้วย นี่แสดงถึงระยะห่างเฉลี่ยระหว่างค่าที่สังเกตได้กับเส้นถดถอย
ในแบบจำลองการถดถอยนี้ ค่าที่สังเกตได้จะเบี่ยงเบนโดยเฉลี่ย 5.3657 หน่วยจากเส้นการถดถอย
ตารางค่าประมาณพารามิเตอร์:
เราสามารถใช้ค่าประมาณพารามิเตอร์ในตารางนี้เพื่อเขียนสมการถดถอยที่ติดตั้ง:
คะแนนสอบ = 67.674 + 5.556*(ชั่วโมง) – 0.602*(prep_exams)
เราสามารถใช้สมการนี้เพื่อหาคะแนนสอบโดยประมาณของนักเรียน โดยพิจารณาจากจำนวนชั่วโมงเรียนและจำนวนข้อสอบฝึกหัดที่พวกเขาทำ
เช่น นักเรียนที่เรียน 3 ชั่วโมง และสอบเตรียมสอบ 2 ครั้ง ควรได้คะแนนสอบ 83.1 :
คะแนนสอบโดยประมาณ = 67.674 + 5.556*(3) – 0.602*(2) = 83.1
ค่า p สำหรับชั่วโมง (<0.0001) น้อยกว่า 0.05 ซึ่งหมายความว่ามีความสัมพันธ์ที่มีนัยสำคัญทางสถิติกับผลการสอบ
อย่างไรก็ตาม ค่า p-value สำหรับการสอบเตรียมสอบ (0.5193) จะต้องไม่น้อยกว่า 0.05 ซึ่งหมายความว่าไม่มีความสัมพันธ์ที่มีนัยสำคัญทางสถิติกับผลการสอบ
เราอาจตัดสินใจลบการสอบเตรียมการออกจากแบบจำลอง เนื่องจากไม่มีนัยสำคัญทางสถิติ และแทนที่จะใช้ การถดถอยเชิงเส้นอย่างง่าย โดยใช้ชั่วโมงที่ศึกษาเป็นตัวแปรทำนายเพียงอย่างเดียว
แหล่งข้อมูลเพิ่มเติม
บทช่วยสอนต่อไปนี้จะอธิบายวิธีดำเนินการงานทั่วไปอื่นๆ ใน SAS:
วิธีการคำนวณความสัมพันธ์ใน SAS
วิธีดำเนินการถดถอยเชิงเส้นอย่างง่ายใน SAS
วิธีดำเนินการวิเคราะห์ความแปรปรวนแบบทางเดียวใน SAS