วิธีการคำนวณ aic ใน sas (พร้อมตัวอย่าง)
Akaike Information Criterion (AIC) เป็นตัวชี้วัดที่ใช้ในการเปรียบเทียบความพอดีของแบบจำลองการถดถอยหลายตัว
มีการคำนวณดังนี้:
AIC = 2K – 2 ลิตร (L)
ทอง:
- K: จำนวนพารามิเตอร์โมเดล ค่าเริ่มต้นของ K คือ 2 ดังนั้นแบบจำลองที่มีตัวแปรทำนายเพียงตัวเดียวจะมีค่า K เป็น 2+1 = 3
- ln (L) : ความน่าจะเป็นของบันทึกของโมเดล ซอฟต์แวร์ทางสถิติส่วนใหญ่สามารถคำนวณค่านี้ให้คุณโดยอัตโนมัติ
AIC ได้รับการออกแบบมาเพื่อค้นหาแบบจำลองที่อธิบายความแปรผันของข้อมูลได้มากที่สุด ขณะเดียวกันก็ลงโทษแบบจำลองที่ใช้พารามิเตอร์จำนวนมากเกินไป
เมื่อคุณติดตั้งแบบจำลองการถดถอยหลายตัวแล้ว คุณสามารถเปรียบเทียบ ค่า AIC ของแต่ละรุ่นได้ ยิ่ง AIC ต่ำ ก็ยิ่งเหมาะกับรุ่นมากขึ้น
ตัวอย่างต่อไปนี้แสดงวิธีคำนวณ AIC สำหรับแบบจำลองการถดถอยที่แตกต่างกันใน SAS
ตัวอย่าง: วิธีคำนวณ AIC ใน SAS
สมมติว่าเราต้องการใช้ แบบจำลองการถดถอยเชิงเส้นพหุคูณ ที่แตกต่างกันสามแบบเพื่อคาดการณ์ว่านักเรียนจะได้เกรดการสอบในชั้นเรียน
ต่อไปนี้เป็นตัวแปรทำนายที่เราจะใช้ในแต่ละรุ่น:
- ตัวแปรทำนายในแบบจำลองที่ 1 ชั่วโมงที่ใช้ในการศึกษา
- ตัวแปรทำนายในแบบจำลอง 2: ข้อสอบภาคปฏิบัติที่ผ่านมา
- ตัวแปรทำนายในโมเดล 3: ชั่วโมงที่ใช้ในการศึกษาและฝึกทำข้อสอบ
ขั้นแรก เราจะใช้โค้ดต่อไปนี้เพื่อสร้างชุดข้อมูลที่มีข้อมูลนี้สำหรับนักเรียน 20 คน:
/*create dataset*/ data exam_data; input hours prep_exams score; datalines ; 1 1 76 2 3 78 2 3 85 4 5 88 2 2 72 1 2 69 5 1 94 4 1 94 2 0 88 4 3 92 4 4 90 3 3 75 6 2 96 5 4 90 3 4 82 4 4 85 6 5 99 2 1 83 1 0 62 2 1 76 ; run ;
ต่อไป เราจะใช้ proc reg เพื่อให้พอดีกับแต่ละโมเดลการถดถอยเหล่านี้ และเราจะใช้คำสั่ง Select=adjrsq sse aic เพื่อคำนวณค่า AIC สำหรับแต่ละรุ่น:
/*fit multiple linear regression models and calculate AIC for each model*/ proc reg data =exam_data; model score = hours prep_exams / selection=adjrsq sse aic; run ;
จากผลลัพธ์เราจะเห็นค่า AIC ของแต่ละรุ่น:
- AIC โดยมีชั่วโมงเป็นตัวแปรทำนาย: 68.4537
- AIC พร้อมชั่วโมงและการสอบเป็นตัวแปรทำนาย: 69.9507
- AIC ที่มีการสอบเป็นตัวแปรทำนาย: 91.4967
แบบจำลองที่มีค่า AIC ต่ำสุดคือแบบจำลองที่มีเพียงชั่วโมงเป็นตัวแปรทำนาย
ดังนั้นเราจึงขอประกาศว่าโมเดลต่อไปนี้เหมาะสมกับข้อมูลมากที่สุด:
คะแนน = β 0 + β 1 (จำนวนชั่วโมงที่ศึกษา)
เมื่อเราระบุแบบจำลองนี้ดีที่สุดแล้ว เราก็จะปรับให้เหมาะสมและวิเคราะห์ผลลัพธ์ รวมถึงค่า R-squared และค่าสัมประสิทธิ์เบต้า เพื่อกำหนดความสัมพันธ์ที่แน่นอนระหว่างชั่วโมงเรียนกับเกรดของนักเรียน ‘สอบปลายภาค.
แหล่งข้อมูลเพิ่มเติม
บทช่วยสอนต่อไปนี้จะอธิบายวิธีดำเนินการงานทั่วไปอื่นๆ ใน SAS:
วิธีดำเนินการถดถอยเชิงเส้นอย่างง่ายใน SAS
วิธีดำเนินการถดถอยเชิงเส้นพหุคูณใน SAS
วิธีการคำนวณ R-squared ใน SAS
วิธีการคำนวณ RMSE ใน SAS