“ความดี” คืออะไร? ความแม่นยำของโมเดลการเรียนรู้ของเครื่องคืออะไร?
เมื่อใช้ แบบจำลองการจำแนกประเภท ในการเรียนรู้ของเครื่อง ตัวชี้วัดหนึ่งที่เรามักใช้ในการประเมินคุณภาพของแบบจำลองคือ ความแม่นยำ
ความแม่นยำเป็นเพียงเปอร์เซ็นต์ของการสังเกตทั้งหมดซึ่งจำแนกอย่างถูกต้องตามแบบจำลอง
มีการคำนวณดังนี้:
ความแม่นยำ = (# ผลบวกจริง + # ผลลบจริง) / (ขนาดตัวอย่างทั้งหมด)
คำถามที่นักเรียนมักถามเกี่ยวกับความถูกต้องคือ:
ค่าใดที่ถือว่าเป็นค่า “ดี” สำหรับความแม่นยำของโมเดลแมชชีนเลิร์นนิง
แม้ว่าความแม่นยำของแบบจำลองอาจแตกต่างกันระหว่าง 0% ถึง 100% แต่ก็ไม่มีเกณฑ์สากลที่เราใช้ในการพิจารณาว่าแบบจำลองมีความแม่นยำ “ดี” หรือไม่
โดยทั่วไปแล้ว เราจะเปรียบเทียบความแม่นยำของแบบจำลองของเรากับแบบจำลองอ้างอิงแทน
แบบจำลองพื้นฐานเพียงคาดการณ์ว่าการสังเกตแต่ละครั้งในชุดข้อมูลเป็นของคลาสที่พบบ่อยที่สุด
ในทางปฏิบัติ โมเดลการจำแนกประเภทใดๆ ที่มีความแม่นยำสูงกว่าโมเดลอ้างอิงถือได้ว่า “มีประโยชน์” แต่เห็นได้ชัดว่ายิ่งมีความแตกต่างในความแม่นยำระหว่างโมเดลของเรากับโมเดลอ้างอิงมากเท่าไรก็ยิ่งดีเท่านั้น
ตัวอย่างต่อไปนี้แสดงวิธีการระบุคร่าวๆ ว่าแบบจำลองการจัดประเภทมีความแม่นยำ “ดี” หรือไม่
ตัวอย่าง: การพิจารณาว่าแบบจำลองมีความแม่นยำ “ดี” หรือไม่
สมมติว่าเราใช้ แบบจำลองการถดถอยลอจิสติกส์ เพื่อคาดการณ์ว่าผู้เล่นบาสเกตบอลระดับวิทยาลัยกว่า 400 คนจะถูกคัดเลือกเข้าสู่ NBA หรือไม่
เมทริกซ์ความสับสน ต่อไปนี้สรุปการคาดการณ์ที่ทำโดยโมเดล:

วิธีคำนวณความแม่นยำของแบบจำลองนี้:
- ความแม่นยำ = (# ผลบวกจริง + # ผลลบจริง) / (ขนาดตัวอย่างทั้งหมด)
- ความแม่นยำ = (120 + 170) / (400)
- ความแม่นยำ = 0.725
แบบจำลองทำนายผลลัพธ์ได้อย่างถูกต้องสำหรับผู้เล่น 72.5%
หากต้องการทราบว่าความแม่นยำนั้น “ดี” หรือไม่ เราสามารถคำนวณความแม่นยำของแบบจำลองพื้นฐานได้
ในตัวอย่างนี้ ผลลัพธ์ที่พบบ่อยที่สุดสำหรับผู้เล่นคือการยกเลิกร่าง โดยเฉพาะอย่างยิ่ง ผู้เล่น 240 คนจาก 400 คนยังไม่ได้ร่าง
แบบจำลองพื้นฐานจะเป็นแบบจำลองที่คาดการณ์ว่าผู้เล่นแต่ละคนจะยังไม่ได้ร่าง
ความแม่นยำของแบบจำลองนี้จะถูกคำนวณดังนี้:
- ความแม่นยำ = (# ผลบวกจริง + # ผลลบจริง) / (ขนาดตัวอย่างทั้งหมด)
- ความแม่นยำ = (0 + 240) / (400)
- ความแม่นยำ = 0.6
โมเดลพื้นฐานนี้จะทำนายผลลัพธ์ได้อย่างถูกต้องสำหรับผู้เล่น 60%
ในสถานการณ์นี้ แบบจำลองการถดถอยโลจิสติกของเรามีการปรับปรุงที่แม่นยำกว่าแบบจำลองพื้นฐาน ดังนั้นเราจึงถือว่าแบบจำลองของเรามี “ประโยชน์” เป็นอย่างน้อย
ในทางปฏิบัติ เราน่าจะเหมาะกับโมเดลการจำแนกประเภทที่แตกต่างกันหลายแบบ และเลือกโมเดลสุดท้ายเป็นโมเดลที่ให้ความแม่นยำสูงสุดเมื่อเทียบกับโมเดลพื้นฐาน
ข้อควรระวังในการใช้ความแม่นยำในการประเมินประสิทธิภาพของโมเดล
ความแม่นยำเป็นหน่วยเมตริกที่ใช้กันทั่วไปเนื่องจากตีความได้ง่าย
ตัวอย่างเช่น ถ้าเราบอกว่าแบบจำลองมีความแม่นยำ 90% เราก็รู้ว่าแบบจำลองนั้นจำแนกการสังเกตได้ถูกต้องถึง 90%
อย่างไรก็ตาม ความแม่นยำไม่ได้คำนึงถึงวิธีการกระจายข้อมูล
ตัวอย่างเช่น สมมติว่า 90% ของผู้เล่นทั้งหมดไม่ได้ถูกดราฟต์เข้าสู่ NBA หากเรามีแบบจำลองที่คาดการณ์ง่ายๆ ว่าผู้เล่นทุกคนจะยังไม่ได้ร่าง โมเดลนั้นจะทำนายผลลัพธ์ได้อย่างถูกต้องสำหรับ 90% ของผู้เล่น
ดูเหมือนว่าค่านี้สูง แต่จริงๆ แล้วโมเดลไม่สามารถคาดเดาได้อย่างถูกต้องว่าผู้เล่นคนใดจะถูกดราฟต์
ตัวชี้วัดทางเลือกที่ใช้บ่อยเรียกว่า คะแนน F1 ซึ่งคำนึงถึงวิธีการกระจายข้อมูล
ตัวอย่างเช่น หากข้อมูลไม่สมดุลอย่างมาก (เช่น 90% ของผู้เล่นทั้งหมดยังไม่ได้ร่าง และ 10% เป็นผู้เล่น) คะแนน F1 จะให้การประเมินประสิทธิภาพของแบบจำลองได้ดีขึ้น
เรียนรู้เพิ่มเติมเกี่ยวกับความแตกต่างระหว่างความแม่นยำและคะแนน F1 ที่นี่
แหล่งข้อมูลเพิ่มเติม
บทช่วยสอนต่อไปนี้ให้ข้อมูลเพิ่มเติมเกี่ยวกับหน่วยวัดที่ใช้ในแบบจำลองการจำแนกประเภทการเรียนรู้ของเครื่อง: