ค่า aic ที่ดีเรียกว่าอะไร?
เกณฑ์ข้อมูล Akaike (AIC) เป็นหน่วยเมตริกที่ใช้ในการเปรียบเทียบความพอดีของแบบจำลองการถดถอยต่างๆ
มีการคำนวณดังนี้:
AIC = 2K – 2 ลิตร (L)
ทอง:
- K: จำนวนพารามิเตอร์โมเดล
- ln (L) : ความน่าจะเป็นของบันทึกของโมเดล ข้อมูลนี้บอกเราว่าแบบจำลองนี้น่าจะเป็นไปได้เพียงใดเมื่อพิจารณาจากข้อมูล
เมื่อคุณติดตั้งแบบจำลองการถดถอยหลายตัวแล้ว คุณสามารถเปรียบเทียบ ค่า AIC ของแต่ละรุ่นได้ รุ่นที่มี AIC ต่ำที่สุดจะให้ขนาดที่พอดีที่สุด
คำถามที่นักเรียนมักถามเกี่ยวกับ AIC คือ ค่า AIC ที่ดีถือเป็นค่าใด
คำตอบง่ายๆ: ไม่มีค่าสำหรับ AIC ที่จะถือว่า “ดี” หรือ “ไม่ดี” เพราะเราเพียงใช้ AIC เป็นวิธีในการเปรียบเทียบแบบจำลองการถดถอย รุ่นที่มี AIC ต่ำที่สุดจะให้ขนาดที่พอดีที่สุด ค่าสัมบูรณ์ของค่า AIC นั้นไม่สำคัญ
ตัวอย่างเช่น หากโมเดล 1 มีค่า AIC เท่ากับ 730.5 และโมเดล 2 มีค่า AIC อยู่ที่ 456.3 แสดงว่าโมเดล 2 จะให้ความพอดีที่ดีกว่า ค่าสัมบูรณ์ของ AIC นั้นไม่สำคัญ
ข้อมูลอ้างอิงที่เป็นประโยชน์ในหัวข้อนี้มาจาก Serious Stats: A Guide to Advanced Statistics for the Behavioral Sciences หน้า 402:
เช่นเดียวกับความน่าจะเป็น ค่าสัมบูรณ์ของ AIC ส่วนใหญ่ไม่มีความหมาย (ถูกกำหนดโดยค่าคงที่ที่กำหนดเอง) เนื่องจากค่าคงที่นี้ขึ้นอยู่กับข้อมูล จึงสามารถใช้ AIC เพื่อเปรียบเทียบแบบจำลองที่เหมาะกับตัวอย่างที่เหมือนกันได้
โมเดลที่ดีที่สุดในบรรดาโมเดลที่เป็นไปได้ทั้งหมดที่พิจารณาจึงเป็นโมเดลที่มีค่า AIC น้อยที่สุด (สูญเสียข้อมูลน้อยที่สุดเมื่อเทียบกับโมเดลจริง)
ตามที่ระบุไว้ในคู่มือ ค่าสัมบูรณ์ของ AIC นั้นไม่สำคัญ เราเพียงแต่ใช้ค่า AIC เพื่อเปรียบเทียบความพอดีของรุ่น และรุ่นที่มีค่า AIC ต่ำที่สุดจะดีที่สุด
วิธีตรวจสอบว่าโมเดลเหมาะสมกับชุดข้อมูลหรือไม่
ค่า AIC เป็นวิธีที่มีประโยชน์ในการพิจารณาว่าแบบจำลองการถดถอยใดที่เหมาะกับชุดข้อมูลจากรายการแบบจำลองที่เป็นไปได้มากที่สุด แต่จริงๆ แล้วไม่ได้วัดว่าแบบจำลองนั้นเหมาะสมกับข้อมูล มากน้อยเพียงใด
ตัวอย่างเช่น ตัวแบบการถดถอยตัวใดตัวหนึ่งอาจมีค่า AIC ต่ำที่สุดในบรรดาตัวแบบที่เป็นไปได้ แต่ก็ยังอาจเป็นตัวแบบที่ไม่เหมาะสม
ในการพิจารณาว่าแบบจำลองเหมาะสมกับชุดข้อมูลหรือไม่ เราสามารถใช้ตัวชี้วัดสองตัวต่อไปนี้:
- Cp ของ Mallows : หน่วยเมตริกที่ระบุปริมาณระดับของอคติในแบบจำลองการถดถอย
- ปรับ R-squared : สัดส่วนของความแปรปรวนในตัวแปรตอบสนองที่สามารถอธิบายได้ด้วยตัวแปรทำนายในแบบจำลอง ปรับตามจำนวนตัวแปรทำนายในแบบจำลอง
กลยุทธ์ที่เป็นไปได้ในการเลือกแบบจำลองการถดถอยที่ “ดีที่สุด” จากแบบจำลองที่เป็นไปได้หลายแบบมีดังนี้
- ขั้นแรก ให้ระบุแบบจำลองที่มีค่า AIC ต่ำที่สุด
- จากนั้นใส่โมเดลการถดถอยนี้เข้ากับข้อมูลและคำนวณ Mallows Cp และปรับค่า R-squared ของโมเดลเพื่อหาปริมาณว่าโมเดลนี้เหมาะกับข้อมูลจริงเพียงใด
แนวทางนี้ช่วยให้คุณสามารถระบุแบบจำลองที่เหมาะสมที่สุด และ วัดปริมาณว่าแบบจำลองนั้นเหมาะสมกับข้อมูลจริงเพียงใด
แหล่งข้อมูลเพิ่มเติม
วิธีการตีความค่า AIC เชิงลบ
วิธีการคำนวณ AIC ใน R
วิธีการคำนวณ AIC ใน Python