คะแนน f1 เทียบกับความแม่นยำ: คุณควรใช้อันไหน
เมื่อใช้ แบบจำลองการจัดหมวดหมู่ ในการเรียนรู้ของเครื่อง ตัวชี้วัดสองตัวที่เรามักใช้ในการประเมินคุณภาพของแบบจำลองคือ คะแนน F1 และ ความแม่นยำ
สำหรับเมตริกทั้งสอง ค่ายิ่งสูง โมเดลก็ยิ่งมีความสามารถมากขึ้นในการจำแนกการสังเกตออกเป็นคลาสต่างๆ
อย่างไรก็ตาม แต่ละเมตริกคำนวณโดยใช้สูตรที่แตกต่างกัน และมีข้อดีและข้อเสียในการใช้
ตัวอย่างต่อไปนี้แสดงวิธีคำนวณแต่ละหน่วยเมตริกในทางปฏิบัติ
ตัวอย่าง: การคำนวณคะแนน F1 และความแม่นยำ
สมมติว่าเราใช้แบบจำลองการถดถอยลอจิสติกส์เพื่อคาดการณ์ว่าผู้เล่นบาสเกตบอลระดับวิทยาลัยกว่า 400 คนจะถูกคัดเลือกเข้าสู่ NBA หรือไม่
เมทริกซ์ความสับสนต่อไปนี้สรุปการคาดการณ์ที่ทำโดยแบบจำลอง:

วิธีคำนวณเมตริกต่างๆ สำหรับเมทริกซ์ความสับสนมีดังนี้
ความแม่นยำ: แก้ไขการคาดการณ์เชิงบวกโดยสัมพันธ์กับการคาดการณ์เชิงบวกทั้งหมด
- ความแม่นยำ = ผลบวกจริง / (ผลบวกจริง + ผลบวกลวง)
- ความแม่นยำ = 120 / (120 + 70)
- ความแม่นยำ = 0.63
คำเตือน: แก้ไขการคาดการณ์เชิงบวกเทียบกับผลบวกจริงทั้งหมด
- การเรียกคืน = True Positive / (True Positive + False Negative)
- เรียกคืน = 120 / (120 + 40)
- เรียกคืน = 0.75
ความแม่นยำ: เปอร์เซ็นต์ของการสังเกตทั้งหมดจำแนกอย่างถูกต้อง
- ความแม่นยำ = (ค่าบวกจริง + ค่าลบจริง) / (ขนาดตัวอย่างทั้งหมด)
- ความแม่นยำ = (120 + 170) / (400)
- ความแม่นยำ = 0.725
คะแนน F1: ค่าเฉลี่ยฮาร์มอนิกของความแม่นยำและการเรียกคืน
- คะแนน F1 = 2 * (ความแม่นยำ * การเรียกคืน) / (ความแม่นยำ + การเรียกคืน)
- คะแนน F1 = 2 * (0.63 * 0.75) / (0.63 + 0.75)
- คะแนน F1 = 0.685
เมื่อใดควรใช้คะแนน F1 เทียบกับความแม่นยำ
การใช้คะแนน F1 และความแม่นยำมีข้อดีและข้อเสีย
ความแม่นยำ :
มือโปร : ตีความได้ง่าย ถ้าเราบอกว่าแบบจำลองมีความแม่นยำ 90% เราก็รู้ว่าแบบจำลองนั้นสามารถจำแนกการสังเกตได้ถูกต้องถึง 90%
ข้อเสีย : ไม่ได้คำนึงถึงวิธีการกระจายข้อมูล ตัวอย่างเช่น สมมติว่า 90% ของผู้เล่นทั้งหมดไม่ได้ถูกดราฟต์เข้าสู่ NBA หากเรามีแบบจำลองที่คาดการณ์ง่ายๆ ว่าผู้เล่นทุกคนจะยังไม่ได้ร่าง โมเดลนั้นจะทำนายผลลัพธ์ได้อย่างถูกต้องสำหรับ 90% ของผู้เล่น ดูเหมือนว่าค่านี้สูง แต่จริงๆ แล้วโมเดลไม่สามารถคาดเดาได้อย่างถูกต้องว่าผู้เล่นคนใดจะถูกดราฟต์
ผลลัพธ์ F1 :
มือโปร : พิจารณาวิธีการกระจายข้อมูล ตัวอย่างเช่น หากข้อมูลไม่สมดุลอย่างมาก (เช่น 90% ของผู้เล่นทั้งหมดยังไม่ได้ร่าง และ 10% เป็นผู้เล่น) คะแนน F1 จะให้การประเมินประสิทธิภาพของแบบจำลองได้ดีขึ้น
ข้อเสีย : ตีความได้ยากกว่า คะแนน F1 เป็นการผสมผสานระหว่างความแม่นยำและการจดจำโมเดล ทำให้ตีความได้ยากขึ้นเล็กน้อย
โดยทั่วไป:
เรามักจะใช้ ความแม่นยำ เมื่อคลาสมีความสมดุล และไม่มีข้อเสียที่สำคัญในการทำนายผลลบลวง
เรามักจะใช้ คะแนน F1 เมื่อคลาสไม่สมดุลและมีข้อเสียร้ายแรงในการทำนายผลลบลวง
ตัวอย่างเช่น หากเราใช้แบบจำลองการถดถอยลอจิสติกส์เพื่อคาดการณ์ว่าบุคคลนั้นเป็นมะเร็งหรือไม่ ผลลบลวงนั้นแย่มาก (เช่น การทำนายว่าบุคคลนั้นไม่เป็นมะเร็งเมื่อพวกเขาทำจริง) ดังนั้นคะแนน F1 จะลงโทษแบบจำลองที่มี ผลลบลวงมากเกินไป มากกว่าความแม่นยำ
แหล่งข้อมูลเพิ่มเติม
การถดถอยเทียบกับ การจำแนกประเภท: อะไรคือความแตกต่าง?
รู้เบื้องต้นเกี่ยวกับการถดถอยโลจิสติก
วิธีดำเนินการถดถอยโลจิสติกใน R
วิธีการดำเนินการถดถอยโลจิสติกใน Python