วิธีดำเนินการถดถอยเชิงเส้นอย่างง่ายใน sas


การถดถอยเชิงเส้นอย่างง่าย เป็นเทคนิคที่เราสามารถใช้เพื่อทำความเข้าใจความสัมพันธ์ระหว่างตัวแปรทำนายและ ตัวแปรตอบสนอง

เทคนิคนี้ค้นหาบรรทัดที่ “เหมาะสม” กับข้อมูลมากที่สุดและใช้รูปแบบต่อไปนี้:

ŷ = ข 0 + ข 1 x

ทอง:

  • ŷ : ค่าตอบกลับโดยประมาณ
  • b 0 : ต้นกำเนิดของเส้นถดถอย
  • b 1 : ความชันของเส้นถดถอย

สมการนี้ช่วยให้เราเข้าใจความสัมพันธ์ระหว่างตัวแปรทำนายและตัวแปรตอบสนอง

ตัวอย่างทีละขั้นตอนต่อไปนี้แสดงวิธีการถดถอยเชิงเส้นอย่างง่ายใน SAS

ขั้นตอนที่ 1: สร้างข้อมูล

สำหรับตัวอย่างนี้ เราจะสร้างชุดข้อมูลที่ประกอบด้วยจำนวนชั่วโมงเรียนทั้งหมดและเกรดการสอบปลายภาคของนักเรียน 15 คน

เราจะปรับโมเดลการถดถอยเชิงเส้นอย่างง่ายโดยใช้ ชั่วโมง เป็นตัวแปรทำนายและ ให้คะแนน เป็นตัวแปรตอบสนอง

รหัสต่อไปนี้แสดงวิธีการสร้างชุดข้อมูลนี้ใน SAS:

 /*create dataset*/
data exam_data;
    input hours score;
    datalines ;
1 64
2 66
4 76
5 73
5 74
6 81
6 83
7 82
8 80
10 88
11 84
11 82
12 91
12 93
14 89
;
run ;

/*view dataset*/
proc print data =exam_data;

ขั้นตอนที่ 2: ติดตั้งโมเดลการถดถอยเชิงเส้นอย่างง่าย

ต่อไป เราจะใช้ proc reg เพื่อให้พอดีกับโมเดลการถดถอยเชิงเส้นอย่างง่าย:

 /*fit simple linear regression model*/
proc reg data =exam_data;
   model score = hours;
run ; 

เอาต์พุตการถดถอยเชิงเส้นอย่างง่ายใน SAS

ต่อไปนี้เป็นวิธีตีความค่าที่สำคัญที่สุดจากแต่ละตารางในผลลัพธ์:

ตารางวิเคราะห์ช่องว่าง:

ค่า F โดยรวมของแบบจำลองการถดถอยคือ 63.91 และค่า p ที่สอดคล้องกันคือ <0.0001

เนื่องจากค่า p นี้น้อยกว่า 0.05 เราจึงสรุปได้ว่าแบบจำลองการถดถอยโดยรวมมีนัยสำคัญทางสถิติ กล่าวอีกนัยหนึ่ง ชั่วโมงเป็นตัวแปรที่มีประโยชน์ในการทำนายผลการสอบ

ตารางพอดีรุ่น:

ค่า R-Square บอกเราถึงเปอร์เซ็นต์ความแปรผันของคะแนนสอบที่สามารถอธิบายได้ด้วยจำนวนชั่วโมงที่เรียน

โดยทั่วไป ยิ่ง ค่า R-squared ของแบบจำลองการถดถอยมีค่ามากเท่าใด ตัวแปรทำนายก็จะทำนายค่าของตัวแปรตอบสนองได้ดีขึ้นเท่านั้น

ในกรณีนี้ สามารถอธิบายความแปรผันของคะแนนสอบได้ 83.1% ด้วยจำนวนชั่วโมงที่เรียน ค่านี้ค่อนข้างสูง แสดงว่าชั่วโมงเรียนเป็นตัวแปรที่มีประโยชน์มากในการทำนายผลการสอบ

ตารางค่าประมาณพารามิเตอร์:

จากตารางนี้ เราจะเห็นสมการถดถอยที่ติดตั้งไว้:

คะแนน = 65.33 + 1.98*(ชั่วโมง)

เราตีความสิ่งนี้ว่าหมายความว่าแต่ละชั่วโมงที่ศึกษาเพิ่มเติมสัมพันธ์กับคะแนนสอบที่เพิ่มขึ้นโดยเฉลี่ย 1.98 คะแนน

ค่าเดิมบอกเราว่าคะแนนสอบเฉลี่ยของนักเรียนที่เรียนเป็นเวลา 0 ชั่วโมงคือ 65.33

นอกจากนี้เรายังสามารถใช้สมการนี้เพื่อค้นหาคะแนนสอบที่คาดหวังโดยพิจารณาจากจำนวนชั่วโมงที่นักเรียนเรียน

เช่น นักเรียนที่เรียน 10 ชั่วโมง ควรได้คะแนนสอบ 85.13 :

คะแนน = 65.33 + 1.98*(10) = 85.13

เนื่องจากค่า p (<0.0001) สำหรับ ชั่วโมง น้อยกว่า 0.05 ในตารางนี้ เราจึงสรุปได้ว่านี่คือตัวแปรทำนายที่มีนัยสำคัญทางสถิติ

ขั้นตอนที่ 3: วิเคราะห์แปลงที่เหลือ

การถดถอยเชิงเส้นอย่างง่ายทำให้มี สมมติฐาน ที่สำคัญสองประการเกี่ยวกับ ส่วนที่เหลือ ของแบบจำลอง:

  • ส่วนที่เหลือจะกระจายตามปกติ
  • สารตกค้างมีความแปรปรวนเท่ากัน (“ ความเป็นเนื้อเดียวกัน ”) ในแต่ละระดับของตัวแปรทำนาย

หากไม่เป็นไปตามสมมติฐานเหล่านี้ ผลลัพธ์ของแบบจำลองการถดถอยของเราอาจไม่น่าเชื่อถือ

เพื่อตรวจสอบว่าเป็นไปตามสมมติฐานเหล่านี้ เราสามารถวิเคราะห์แปลงที่เหลือที่ SAS แสดงในเอาต์พุตโดยอัตโนมัติ:

เพื่อตรวจสอบว่าส่วนที่เหลือมี การกระจายตามปกติ เราสามารถวิเคราะห์พล็อตที่ตำแหน่งด้านซ้ายของเส้นกึ่งกลางโดยใช้ “ควอนไทล์” ตามแนวแกน x และ “ส่วนที่เหลือ” ตามแนวแกน y

พล็อตนี้เรียกว่า พล็อต QQ ย่อมาจาก “ควอนไทล์-ควอนไทล์” และใช้เพื่อพิจารณาว่าข้อมูลมีการกระจายตามปกติหรือไม่ หากข้อมูลมีการกระจายตามปกติ จุดบนพล็อต QQ จะอยู่บนเส้นทแยงมุม

จากกราฟเราจะเห็นว่าจุดต่างๆ อยู่ประมาณเส้นทแยงมุมตรง ดังนั้นเราจึงสรุปได้ว่าส่วนที่เหลือมีการกระจายตามปกติ

ต่อไป เพื่อตรวจสอบว่าค่าคงเหลือเป็น โฮโมสซิดาสติก เราสามารถดูพล็อตที่ตำแหน่งด้านซ้ายของแถวแรกโดยมี “ค่าที่คาดการณ์ไว้” ตามแนวแกน x และ “ค่าคงเหลือ” ตามแนวแกน y

หากจุดการลงจุดกระจัดกระจายแบบสุ่มรอบๆ ศูนย์โดยไม่มีรูปแบบที่ชัดเจน เราก็สามารถสรุปได้ว่าจุดที่เหลือนั้นเป็นแบบโฮโมสเคดาสติก

จากโครงเรื่อง เราจะเห็นว่าจุดต่างๆ กระจัดกระจายไปรอบๆ ศูนย์แบบสุ่ม โดยมีความแปรปรวนเท่ากันโดยประมาณในแต่ละระดับตลอดโครงเรื่อง ดังนั้นเราจึงสรุปได้ว่าส่วนที่เหลือนั้นเป็นแบบโฮโมสซิดาสติก

เนื่องจากเป็นไปตามสมมติฐานทั้งสองประการ เราจึงสามารถสรุปได้ว่าผลลัพธ์ของแบบจำลองการถดถอยเชิงเส้นอย่างง่ายมีความน่าเชื่อถือ

แหล่งข้อมูลเพิ่มเติม

บทช่วยสอนต่อไปนี้จะอธิบายวิธีดำเนินการงานทั่วไปอื่นๆ ใน SAS:

วิธีดำเนินการวิเคราะห์ความแปรปรวนแบบทางเดียวใน SAS
วิธีดำเนินการ ANOVA แบบสองทางใน SAS
วิธีการคำนวณความสัมพันธ์ใน SAS

เพิ่มความคิดเห็น

อีเมลของคุณจะไม่แสดงให้คนอื่นเห็น ช่องข้อมูลจำเป็นถูกทำเครื่องหมาย *