ค่า aic ที่ดีเรียกว่าอะไร?


เกณฑ์ข้อมูล Akaike (AIC) เป็นหน่วยเมตริกที่ใช้ในการเปรียบเทียบความพอดีของแบบจำลองการถดถอยต่างๆ

มีการคำนวณดังนี้:

AIC = 2K – 2 ลิตร (L)

ทอง:

  • K: จำนวนพารามิเตอร์โมเดล
  • ln (L) : ความน่าจะเป็นของบันทึกของโมเดล ข้อมูลนี้บอกเราว่าแบบจำลองนี้น่าจะเป็นไปได้เพียงใดเมื่อพิจารณาจากข้อมูล

เมื่อคุณติดตั้งแบบจำลองการถดถอยหลายตัวแล้ว คุณสามารถเปรียบเทียบ ค่า AIC ของแต่ละรุ่นได้ รุ่นที่มี AIC ต่ำที่สุดจะให้ขนาดที่พอดีที่สุด

คำถามที่นักเรียนมักถามเกี่ยวกับ AIC คือ ค่า AIC ที่ดีถือเป็นค่าใด

คำตอบง่ายๆ: ไม่มีค่าสำหรับ AIC ที่จะถือว่า “ดี” หรือ “ไม่ดี” เพราะเราเพียงใช้ AIC เป็นวิธีในการเปรียบเทียบแบบจำลองการถดถอย รุ่นที่มี AIC ต่ำที่สุดจะให้ขนาดที่พอดีที่สุด ค่าสัมบูรณ์ของค่า AIC นั้นไม่สำคัญ

ตัวอย่างเช่น หากโมเดล 1 มีค่า AIC เท่ากับ 730.5 และโมเดล 2 มีค่า AIC อยู่ที่ 456.3 แสดงว่าโมเดล 2 จะให้ความพอดีที่ดีกว่า ค่าสัมบูรณ์ของ AIC นั้นไม่สำคัญ

ข้อมูลอ้างอิงที่เป็นประโยชน์ในหัวข้อนี้มาจาก Serious Stats: A Guide to Advanced Statistics for the Behavioral Sciences หน้า 402:

เช่นเดียวกับความน่าจะเป็น ค่าสัมบูรณ์ของ AIC ส่วนใหญ่ไม่มีความหมาย (ถูกกำหนดโดยค่าคงที่ที่กำหนดเอง) เนื่องจากค่าคงที่นี้ขึ้นอยู่กับข้อมูล จึงสามารถใช้ AIC เพื่อเปรียบเทียบแบบจำลองที่เหมาะกับตัวอย่างที่เหมือนกันได้

โมเดลที่ดีที่สุดในบรรดาโมเดลที่เป็นไปได้ทั้งหมดที่พิจารณาจึงเป็นโมเดลที่มีค่า AIC น้อยที่สุด (สูญเสียข้อมูลน้อยที่สุดเมื่อเทียบกับโมเดลจริง)

ตามที่ระบุไว้ในคู่มือ ค่าสัมบูรณ์ของ AIC นั้นไม่สำคัญ เราเพียงแต่ใช้ค่า AIC เพื่อเปรียบเทียบความพอดีของรุ่น และรุ่นที่มีค่า AIC ต่ำที่สุดจะดีที่สุด

วิธีตรวจสอบว่าโมเดลเหมาะสมกับชุดข้อมูลหรือไม่

ค่า AIC เป็นวิธีที่มีประโยชน์ในการพิจารณาว่าแบบจำลองการถดถอยใดที่เหมาะกับชุดข้อมูลจากรายการแบบจำลองที่เป็นไปได้มากที่สุด แต่จริงๆ แล้วไม่ได้วัดว่าแบบจำลองนั้นเหมาะสมกับข้อมูล มากน้อยเพียงใด

ตัวอย่างเช่น ตัวแบบการถดถอยตัวใดตัวหนึ่งอาจมีค่า AIC ต่ำที่สุดในบรรดาตัวแบบที่เป็นไปได้ แต่ก็ยังอาจเป็นตัวแบบที่ไม่เหมาะสม

ในการพิจารณาว่าแบบจำลองเหมาะสมกับชุดข้อมูลหรือไม่ เราสามารถใช้ตัวชี้วัดสองตัวต่อไปนี้:

  • Cp ของ Mallows : หน่วยเมตริกที่ระบุปริมาณระดับของอคติในแบบจำลองการถดถอย
  • ปรับ R-squared : สัดส่วนของความแปรปรวนในตัวแปรตอบสนองที่สามารถอธิบายได้ด้วยตัวแปรทำนายในแบบจำลอง ปรับตามจำนวนตัวแปรทำนายในแบบจำลอง

กลยุทธ์ที่เป็นไปได้ในการเลือกแบบจำลองการถดถอยที่ “ดีที่สุด” จากแบบจำลองที่เป็นไปได้หลายแบบมีดังนี้

  • ขั้นแรก ให้ระบุแบบจำลองที่มีค่า AIC ต่ำที่สุด
  • จากนั้นใส่โมเดลการถดถอยนี้เข้ากับข้อมูลและคำนวณ Mallows Cp และปรับค่า R-squared ของโมเดลเพื่อหาปริมาณว่าโมเดลนี้เหมาะกับข้อมูลจริงเพียงใด

แนวทางนี้ช่วยให้คุณสามารถระบุแบบจำลองที่เหมาะสมที่สุด และ วัดปริมาณว่าแบบจำลองนั้นเหมาะสมกับข้อมูลจริงเพียงใด

แหล่งข้อมูลเพิ่มเติม

วิธีการตีความค่า AIC เชิงลบ
วิธีการคำนวณ AIC ใน R
วิธีการคำนวณ AIC ใน Python

เพิ่มความคิดเห็น

อีเมลของคุณจะไม่แสดงให้คนอื่นเห็น ช่องข้อมูลจำเป็นถูกทำเครื่องหมาย *