วิธีดำเนินการถดถอยเชิงเส้นอย่างง่ายใน sas
การถดถอยเชิงเส้นอย่างง่าย เป็นเทคนิคที่เราสามารถใช้เพื่อทำความเข้าใจความสัมพันธ์ระหว่างตัวแปรทำนายและ ตัวแปรตอบสนอง
เทคนิคนี้ค้นหาบรรทัดที่ “เหมาะสม” กับข้อมูลมากที่สุดและใช้รูปแบบต่อไปนี้:
ŷ = ข 0 + ข 1 x
ทอง:
- ŷ : ค่าตอบกลับโดยประมาณ
- b 0 : ต้นกำเนิดของเส้นถดถอย
- b 1 : ความชันของเส้นถดถอย
สมการนี้ช่วยให้เราเข้าใจความสัมพันธ์ระหว่างตัวแปรทำนายและตัวแปรตอบสนอง
ตัวอย่างทีละขั้นตอนต่อไปนี้แสดงวิธีการถดถอยเชิงเส้นอย่างง่ายใน SAS
ขั้นตอนที่ 1: สร้างข้อมูล
สำหรับตัวอย่างนี้ เราจะสร้างชุดข้อมูลที่ประกอบด้วยจำนวนชั่วโมงเรียนทั้งหมดและเกรดการสอบปลายภาคของนักเรียน 15 คน
เราจะปรับโมเดลการถดถอยเชิงเส้นอย่างง่ายโดยใช้ ชั่วโมง เป็นตัวแปรทำนายและ ให้คะแนน เป็นตัวแปรตอบสนอง
รหัสต่อไปนี้แสดงวิธีการสร้างชุดข้อมูลนี้ใน SAS:
/*create dataset*/ data exam_data; input hours score; datalines ; 1 64 2 66 4 76 5 73 5 74 6 81 6 83 7 82 8 80 10 88 11 84 11 82 12 91 12 93 14 89 ; run ; /*view dataset*/ proc print data =exam_data;

ขั้นตอนที่ 2: ติดตั้งโมเดลการถดถอยเชิงเส้นอย่างง่าย
ต่อไป เราจะใช้ proc reg เพื่อให้พอดีกับโมเดลการถดถอยเชิงเส้นอย่างง่าย:
/*fit simple linear regression model*/ proc reg data =exam_data; model score = hours; run ;

ต่อไปนี้เป็นวิธีตีความค่าที่สำคัญที่สุดจากแต่ละตารางในผลลัพธ์:
ตารางวิเคราะห์ช่องว่าง:
ค่า F โดยรวมของแบบจำลองการถดถอยคือ 63.91 และค่า p ที่สอดคล้องกันคือ <0.0001
เนื่องจากค่า p นี้น้อยกว่า 0.05 เราจึงสรุปได้ว่าแบบจำลองการถดถอยโดยรวมมีนัยสำคัญทางสถิติ กล่าวอีกนัยหนึ่ง ชั่วโมงเป็นตัวแปรที่มีประโยชน์ในการทำนายผลการสอบ
ตารางพอดีรุ่น:
ค่า R-Square บอกเราถึงเปอร์เซ็นต์ความแปรผันของคะแนนสอบที่สามารถอธิบายได้ด้วยจำนวนชั่วโมงที่เรียน
โดยทั่วไป ยิ่ง ค่า R-squared ของแบบจำลองการถดถอยมีค่ามากเท่าใด ตัวแปรทำนายก็จะทำนายค่าของตัวแปรตอบสนองได้ดีขึ้นเท่านั้น
ในกรณีนี้ สามารถอธิบายความแปรผันของคะแนนสอบได้ 83.1% ด้วยจำนวนชั่วโมงที่เรียน ค่านี้ค่อนข้างสูง แสดงว่าชั่วโมงเรียนเป็นตัวแปรที่มีประโยชน์มากในการทำนายผลการสอบ
ตารางค่าประมาณพารามิเตอร์:
จากตารางนี้ เราจะเห็นสมการถดถอยที่ติดตั้งไว้:
คะแนน = 65.33 + 1.98*(ชั่วโมง)
เราตีความสิ่งนี้ว่าหมายความว่าแต่ละชั่วโมงที่ศึกษาเพิ่มเติมสัมพันธ์กับคะแนนสอบที่เพิ่มขึ้นโดยเฉลี่ย 1.98 คะแนน
ค่าเดิมบอกเราว่าคะแนนสอบเฉลี่ยของนักเรียนที่เรียนเป็นเวลา 0 ชั่วโมงคือ 65.33
นอกจากนี้เรายังสามารถใช้สมการนี้เพื่อค้นหาคะแนนสอบที่คาดหวังโดยพิจารณาจากจำนวนชั่วโมงที่นักเรียนเรียน
เช่น นักเรียนที่เรียน 10 ชั่วโมง ควรได้คะแนนสอบ 85.13 :
คะแนน = 65.33 + 1.98*(10) = 85.13
เนื่องจากค่า p (<0.0001) สำหรับ ชั่วโมง น้อยกว่า 0.05 ในตารางนี้ เราจึงสรุปได้ว่านี่คือตัวแปรทำนายที่มีนัยสำคัญทางสถิติ
ขั้นตอนที่ 3: วิเคราะห์แปลงที่เหลือ
การถดถอยเชิงเส้นอย่างง่ายทำให้มี สมมติฐาน ที่สำคัญสองประการเกี่ยวกับ ส่วนที่เหลือ ของแบบจำลอง:
- ส่วนที่เหลือจะกระจายตามปกติ
- สารตกค้างมีความแปรปรวนเท่ากัน (“ ความเป็นเนื้อเดียวกัน ”) ในแต่ละระดับของตัวแปรทำนาย
หากไม่เป็นไปตามสมมติฐานเหล่านี้ ผลลัพธ์ของแบบจำลองการถดถอยของเราอาจไม่น่าเชื่อถือ
เพื่อตรวจสอบว่าเป็นไปตามสมมติฐานเหล่านี้ เราสามารถวิเคราะห์แปลงที่เหลือที่ SAS แสดงในเอาต์พุตโดยอัตโนมัติ:

เพื่อตรวจสอบว่าส่วนที่เหลือมี การกระจายตามปกติ เราสามารถวิเคราะห์พล็อตที่ตำแหน่งด้านซ้ายของเส้นกึ่งกลางโดยใช้ “ควอนไทล์” ตามแนวแกน x และ “ส่วนที่เหลือ” ตามแนวแกน y
พล็อตนี้เรียกว่า พล็อต QQ ย่อมาจาก “ควอนไทล์-ควอนไทล์” และใช้เพื่อพิจารณาว่าข้อมูลมีการกระจายตามปกติหรือไม่ หากข้อมูลมีการกระจายตามปกติ จุดบนพล็อต QQ จะอยู่บนเส้นทแยงมุม
จากกราฟเราจะเห็นว่าจุดต่างๆ อยู่ประมาณเส้นทแยงมุมตรง ดังนั้นเราจึงสรุปได้ว่าส่วนที่เหลือมีการกระจายตามปกติ
ต่อไป เพื่อตรวจสอบว่าค่าคงเหลือเป็น โฮโมสซิดาสติก เราสามารถดูพล็อตที่ตำแหน่งด้านซ้ายของแถวแรกโดยมี “ค่าที่คาดการณ์ไว้” ตามแนวแกน x และ “ค่าคงเหลือ” ตามแนวแกน y
หากจุดการลงจุดกระจัดกระจายแบบสุ่มรอบๆ ศูนย์โดยไม่มีรูปแบบที่ชัดเจน เราก็สามารถสรุปได้ว่าจุดที่เหลือนั้นเป็นแบบโฮโมสเคดาสติก
จากโครงเรื่อง เราจะเห็นว่าจุดต่างๆ กระจัดกระจายไปรอบๆ ศูนย์แบบสุ่ม โดยมีความแปรปรวนเท่ากันโดยประมาณในแต่ละระดับตลอดโครงเรื่อง ดังนั้นเราจึงสรุปได้ว่าส่วนที่เหลือนั้นเป็นแบบโฮโมสซิดาสติก
เนื่องจากเป็นไปตามสมมติฐานทั้งสองประการ เราจึงสามารถสรุปได้ว่าผลลัพธ์ของแบบจำลองการถดถอยเชิงเส้นอย่างง่ายมีความน่าเชื่อถือ
แหล่งข้อมูลเพิ่มเติม
บทช่วยสอนต่อไปนี้จะอธิบายวิธีดำเนินการงานทั่วไปอื่นๆ ใน SAS:
วิธีดำเนินการวิเคราะห์ความแปรปรวนแบบทางเดียวใน SAS
วิธีดำเนินการ ANOVA แบบสองทางใน SAS
วิธีการคำนวณความสัมพันธ์ใน SAS