วิธีการคำนวณ aic ใน sas (พร้อมตัวอย่าง)


Akaike Information Criterion (AIC) เป็นตัวชี้วัดที่ใช้ในการเปรียบเทียบความพอดีของแบบจำลองการถดถอยหลายตัว

มีการคำนวณดังนี้:

AIC = 2K – 2 ลิตร (L)

ทอง:

  • K: จำนวนพารามิเตอร์โมเดล ค่าเริ่มต้นของ K คือ 2 ดังนั้นแบบจำลองที่มีตัวแปรทำนายเพียงตัวเดียวจะมีค่า K เป็น 2+1 = 3
  • ln (L) : ความน่าจะเป็นของบันทึกของโมเดล ซอฟต์แวร์ทางสถิติส่วนใหญ่สามารถคำนวณค่านี้ให้คุณโดยอัตโนมัติ

AIC ได้รับการออกแบบมาเพื่อค้นหาแบบจำลองที่อธิบายความแปรผันของข้อมูลได้มากที่สุด ขณะเดียวกันก็ลงโทษแบบจำลองที่ใช้พารามิเตอร์จำนวนมากเกินไป

เมื่อคุณติดตั้งแบบจำลองการถดถอยหลายตัวแล้ว คุณสามารถเปรียบเทียบ ค่า AIC ของแต่ละรุ่นได้ ยิ่ง AIC ต่ำ ก็ยิ่งเหมาะกับรุ่นมากขึ้น

ตัวอย่างต่อไปนี้แสดงวิธีคำนวณ AIC สำหรับแบบจำลองการถดถอยที่แตกต่างกันใน SAS

ตัวอย่าง: วิธีคำนวณ AIC ใน SAS

สมมติว่าเราต้องการใช้ แบบจำลองการถดถอยเชิงเส้นพหุคูณ ที่แตกต่างกันสามแบบเพื่อคาดการณ์ว่านักเรียนจะได้เกรดการสอบในชั้นเรียน

ต่อไปนี้เป็นตัวแปรทำนายที่เราจะใช้ในแต่ละรุ่น:

  • ตัวแปรทำนายในแบบจำลองที่ 1 ชั่วโมงที่ใช้ในการศึกษา
  • ตัวแปรทำนายในแบบจำลอง 2: ข้อสอบภาคปฏิบัติที่ผ่านมา
  • ตัวแปรทำนายในโมเดล 3: ชั่วโมงที่ใช้ในการศึกษาและฝึกทำข้อสอบ

ขั้นแรก เราจะใช้โค้ดต่อไปนี้เพื่อสร้างชุดข้อมูลที่มีข้อมูลนี้สำหรับนักเรียน 20 คน:

 /*create dataset*/
data exam_data;
    input hours prep_exams score;
    datalines ;
1 1 76
2 3 78
2 3 85
4 5 88
2 2 72
1 2 69
5 1 94
4 1 94
2 0 88
4 3 92
4 4 90
3 3 75
6 2 96
5 4 90
3 4 82
4 4 85
6 5 99
2 1 83
1 0 62
2 1 76
;
run ;

ต่อไป เราจะใช้ proc reg เพื่อให้พอดีกับแต่ละโมเดลการถดถอยเหล่านี้ และเราจะใช้คำสั่ง Select=adjrsq sse aic เพื่อคำนวณค่า AIC สำหรับแต่ละรุ่น:

 /*fit multiple linear regression models and calculate AIC for each model*/
proc reg data =exam_data;
    model score = hours prep_exams / selection=adjrsq sse aic;
run ; 

คำนวณ AIC ใน SAS

จากผลลัพธ์เราจะเห็นค่า AIC ของแต่ละรุ่น:

  • AIC โดยมีชั่วโมงเป็นตัวแปรทำนาย: 68.4537
  • AIC พร้อมชั่วโมงและการสอบเป็นตัวแปรทำนาย: 69.9507
  • AIC ที่มีการสอบเป็นตัวแปรทำนาย: 91.4967

แบบจำลองที่มีค่า AIC ต่ำสุดคือแบบจำลองที่มีเพียงชั่วโมงเป็นตัวแปรทำนาย

ดังนั้นเราจึงขอประกาศว่าโมเดลต่อไปนี้เหมาะสมกับข้อมูลมากที่สุด:

คะแนน = β 0 + β 1 (จำนวนชั่วโมงที่ศึกษา)

เมื่อเราระบุแบบจำลองนี้ดีที่สุดแล้ว เราก็จะปรับให้เหมาะสมและวิเคราะห์ผลลัพธ์ รวมถึงค่า R-squared และค่าสัมประสิทธิ์เบต้า เพื่อกำหนดความสัมพันธ์ที่แน่นอนระหว่างชั่วโมงเรียนกับเกรดของนักเรียน ‘สอบปลายภาค.

แหล่งข้อมูลเพิ่มเติม

บทช่วยสอนต่อไปนี้จะอธิบายวิธีดำเนินการงานทั่วไปอื่นๆ ใน SAS:

วิธีดำเนินการถดถอยเชิงเส้นอย่างง่ายใน SAS
วิธีดำเนินการถดถอยเชิงเส้นพหุคูณใน SAS
วิธีการคำนวณ R-squared ใน SAS
วิธีการคำนวณ RMSE ใน SAS

เพิ่มความคิดเห็น

อีเมลของคุณจะไม่แสดงให้คนอื่นเห็น ช่องข้อมูลจำเป็นถูกทำเครื่องหมาย *