วิธีดำเนินการถดถอยเชิงเส้นพหุคูณใน sas


การถดถอยเชิงเส้นพหุคูณ เป็นวิธีการที่เราสามารถใช้เพื่อทำความเข้าใจความสัมพันธ์ระหว่างตัวแปรทำนายตั้งแต่สองตัวขึ้นไปกับ ตัวแปรตอบสนอง

บทช่วยสอนนี้จะอธิบายวิธีการถดถอยเชิงเส้นพหุคูณใน SAS

ขั้นตอนที่ 1: สร้างข้อมูล

สมมติว่าเราต้องการใช้แบบจำลองการถดถอยเชิงเส้นพหุคูณที่ใช้จำนวนชั่วโมงในการเรียนและจำนวนข้อสอบฝึกหัดเพื่อทำนายคะแนนสอบปลายภาคของนักเรียน:

คะแนนสอบ = β 0 + β 1 (ชั่วโมง) + β 2 (ข้อสอบเตรียมอุดมศึกษา)

ขั้นแรก เราจะใช้โค้ดต่อไปนี้เพื่อสร้างชุดข้อมูลที่มีข้อมูลนี้สำหรับนักเรียน 20 คน:

 /*create dataset*/
data exam_data;
    input hours prep_exams score;
    datalines ;
1 1 76
2 3 78
2 3 85
4 5 88
2 2 72
1 2 69
5 1 94
4 1 94
2 0 88
4 3 92
4 4 90
3 3 75
6 2 96
5 4 90
3 4 82
4 4 85
6 5 99
2 1 83
1 0 62
2 1 76
;
run ;

ขั้นตอนที่ 2: ดำเนินการถดถอยเชิงเส้นพหุคูณ

ต่อไป เราจะใช้ proc reg เพื่อให้พอดีกับโมเดลการถดถอยเชิงเส้นหลายตัวกับข้อมูล:

 /*fit multiple linear regression model*/
proc reg data =exam_data;
    model score = hours prep_exams;
run ; 

ต่อไปนี้เป็นวิธีการตีความตัวเลขที่เกี่ยวข้องมากที่สุดในแต่ละตาราง:

ตารางวิเคราะห์ช่องว่าง:

ค่า F โดยรวมของแบบจำลองการถดถอยคือ 23.46 และค่า p ที่สอดคล้องกันคือ <0.0001

เนื่องจากค่า p นี้น้อยกว่า 0.05 เราจึงสรุปได้ว่าแบบจำลองการถดถอยโดยรวมมีนัยสำคัญทางสถิติ

ตารางพอดีรุ่น:

ค่า R-Square บอกเราถึงเปอร์เซ็นต์ของการเปลี่ยนแปลงของคะแนนสอบ ซึ่งสามารถอธิบายได้ด้วยจำนวนชั่วโมงที่เรียนและจำนวนการสอบเพื่อเตรียมสอบ

โดยทั่วไป ยิ่ง ค่า R-squared ของแบบจำลองการถดถอยมีค่ามากเท่าใด ตัวแปรทำนายก็จะทำนายค่าของตัวแปรตอบสนองได้ดีขึ้นเท่านั้น

ในกรณีนี้ 73.4% ของการเปลี่ยนแปลงของคะแนนสอบสามารถอธิบายได้ด้วยจำนวนชั่วโมงเรียนและจำนวนการสอบเพื่อเตรียมสอบ

ค่า Root MSE ยังมีประโยชน์ในการทราบอีกด้วย นี่แสดงถึงระยะห่างเฉลี่ยระหว่างค่าที่สังเกตได้กับเส้นถดถอย

ในแบบจำลองการถดถอยนี้ ค่าที่สังเกตได้จะเบี่ยงเบนโดยเฉลี่ย 5.3657 หน่วยจากเส้นการถดถอย

ตารางค่าประมาณพารามิเตอร์:

เราสามารถใช้ค่าประมาณพารามิเตอร์ในตารางนี้เพื่อเขียนสมการถดถอยที่ติดตั้ง:

คะแนนสอบ = 67.674 + 5.556*(ชั่วโมง) – 0.602*(prep_exams)

เราสามารถใช้สมการนี้เพื่อหาคะแนนสอบโดยประมาณของนักเรียน โดยพิจารณาจากจำนวนชั่วโมงเรียนและจำนวนข้อสอบฝึกหัดที่พวกเขาทำ

เช่น นักเรียนที่เรียน 3 ชั่วโมง และสอบเตรียมสอบ 2 ครั้ง ควรได้คะแนนสอบ 83.1 :

คะแนนสอบโดยประมาณ = 67.674 + 5.556*(3) – 0.602*(2) = 83.1

ค่า p สำหรับชั่วโมง (<0.0001) น้อยกว่า 0.05 ซึ่งหมายความว่ามีความสัมพันธ์ที่มีนัยสำคัญทางสถิติกับผลการสอบ

อย่างไรก็ตาม ค่า p-value สำหรับการสอบเตรียมสอบ (0.5193) จะต้องไม่น้อยกว่า 0.05 ซึ่งหมายความว่าไม่มีความสัมพันธ์ที่มีนัยสำคัญทางสถิติกับผลการสอบ

เราอาจตัดสินใจลบการสอบเตรียมการออกจากแบบจำลอง เนื่องจากไม่มีนัยสำคัญทางสถิติ และแทนที่จะใช้ การถดถอยเชิงเส้นอย่างง่าย โดยใช้ชั่วโมงที่ศึกษาเป็นตัวแปรทำนายเพียงอย่างเดียว

แหล่งข้อมูลเพิ่มเติม

บทช่วยสอนต่อไปนี้จะอธิบายวิธีดำเนินการงานทั่วไปอื่นๆ ใน SAS:

วิธีการคำนวณความสัมพันธ์ใน SAS
วิธีดำเนินการถดถอยเชิงเส้นอย่างง่ายใน SAS
วิธีดำเนินการวิเคราะห์ความแปรปรวนแบบทางเดียวใน SAS

เพิ่มความคิดเห็น

อีเมลของคุณจะไม่แสดงให้คนอื่นเห็น ช่องข้อมูลจำเป็นถูกทำเครื่องหมาย *