คะแนน f1 เทียบกับความแม่นยำ: คุณควรใช้อันไหน


เมื่อใช้ แบบจำลองการจัดหมวดหมู่ ในการเรียนรู้ของเครื่อง ตัวชี้วัดสองตัวที่เรามักใช้ในการประเมินคุณภาพของแบบจำลองคือ คะแนน F1 และ ความแม่นยำ

สำหรับเมตริกทั้งสอง ค่ายิ่งสูง โมเดลก็ยิ่งมีความสามารถมากขึ้นในการจำแนกการสังเกตออกเป็นคลาสต่างๆ

อย่างไรก็ตาม แต่ละเมตริกคำนวณโดยใช้สูตรที่แตกต่างกัน และมีข้อดีและข้อเสียในการใช้

ตัวอย่างต่อไปนี้แสดงวิธีคำนวณแต่ละหน่วยเมตริกในทางปฏิบัติ

ตัวอย่าง: การคำนวณคะแนน F1 และความแม่นยำ

สมมติว่าเราใช้แบบจำลองการถดถอยลอจิสติกส์เพื่อคาดการณ์ว่าผู้เล่นบาสเกตบอลระดับวิทยาลัยกว่า 400 คนจะถูกคัดเลือกเข้าสู่ NBA หรือไม่

เมทริกซ์ความสับสนต่อไปนี้สรุปการคาดการณ์ที่ทำโดยแบบจำลอง:

วิธีคำนวณเมตริกต่างๆ สำหรับเมทริกซ์ความสับสนมีดังนี้

ความแม่นยำ: แก้ไขการคาดการณ์เชิงบวกโดยสัมพันธ์กับการคาดการณ์เชิงบวกทั้งหมด

  • ความแม่นยำ = ผลบวกจริง / (ผลบวกจริง + ผลบวกลวง)
  • ความแม่นยำ = 120 / (120 + 70)
  • ความแม่นยำ = 0.63

คำเตือน: แก้ไขการคาดการณ์เชิงบวกเทียบกับผลบวกจริงทั้งหมด

  • การเรียกคืน = True Positive / (True Positive + False Negative)
  • เรียกคืน = 120 / (120 + 40)
  • เรียกคืน = 0.75

ความแม่นยำ: เปอร์เซ็นต์ของการสังเกตทั้งหมดจำแนกอย่างถูกต้อง

  • ความแม่นยำ = (ค่าบวกจริง + ค่าลบจริง) / (ขนาดตัวอย่างทั้งหมด)
  • ความแม่นยำ = (120 + 170) / (400)
  • ความแม่นยำ = 0.725

คะแนน F1: ค่าเฉลี่ยฮาร์มอนิกของความแม่นยำและการเรียกคืน

  • คะแนน F1 = 2 * (ความแม่นยำ * การเรียกคืน) / (ความแม่นยำ + การเรียกคืน)
  • คะแนน F1 = 2 * (0.63 * 0.75) / (0.63 + 0.75)
  • คะแนน F1 = 0.685

เมื่อใดควรใช้คะแนน F1 เทียบกับความแม่นยำ

การใช้คะแนน F1 และความแม่นยำมีข้อดีและข้อเสีย

ความแม่นยำ :

มือโปร : ตีความได้ง่าย ถ้าเราบอกว่าแบบจำลองมีความแม่นยำ 90% เราก็รู้ว่าแบบจำลองนั้นสามารถจำแนกการสังเกตได้ถูกต้องถึง 90%

ข้อเสีย : ไม่ได้คำนึงถึงวิธีการกระจายข้อมูล ตัวอย่างเช่น สมมติว่า 90% ของผู้เล่นทั้งหมดไม่ได้ถูกดราฟต์เข้าสู่ NBA หากเรามีแบบจำลองที่คาดการณ์ง่ายๆ ว่าผู้เล่นทุกคนจะยังไม่ได้ร่าง โมเดลนั้นจะทำนายผลลัพธ์ได้อย่างถูกต้องสำหรับ 90% ของผู้เล่น ดูเหมือนว่าค่านี้สูง แต่จริงๆ แล้วโมเดลไม่สามารถคาดเดาได้อย่างถูกต้องว่าผู้เล่นคนใดจะถูกดราฟต์

ผลลัพธ์ F1 :

มือโปร : พิจารณาวิธีการกระจายข้อมูล ตัวอย่างเช่น หากข้อมูลไม่สมดุลอย่างมาก (เช่น 90% ของผู้เล่นทั้งหมดยังไม่ได้ร่าง และ 10% เป็นผู้เล่น) คะแนน F1 จะให้การประเมินประสิทธิภาพของแบบจำลองได้ดีขึ้น

ข้อเสีย : ตีความได้ยากกว่า คะแนน F1 เป็นการผสมผสานระหว่างความแม่นยำและการจดจำโมเดล ทำให้ตีความได้ยากขึ้นเล็กน้อย

โดยทั่วไป:

เรามักจะใช้ ความแม่นยำ เมื่อคลาสมีความสมดุล และไม่มีข้อเสียที่สำคัญในการทำนายผลลบลวง

เรามักจะใช้ คะแนน F1 เมื่อคลาสไม่สมดุลและมีข้อเสียร้ายแรงในการทำนายผลลบลวง

ตัวอย่างเช่น หากเราใช้แบบจำลองการถดถอยลอจิสติกส์เพื่อคาดการณ์ว่าบุคคลนั้นเป็นมะเร็งหรือไม่ ผลลบลวงนั้นแย่มาก (เช่น การทำนายว่าบุคคลนั้นไม่เป็นมะเร็งเมื่อพวกเขาทำจริง) ดังนั้นคะแนน F1 จะลงโทษแบบจำลองที่มี ผลลบลวงมากเกินไป มากกว่าความแม่นยำ

แหล่งข้อมูลเพิ่มเติม

การถดถอยเทียบกับ การจำแนกประเภท: อะไรคือความแตกต่าง?
รู้เบื้องต้นเกี่ยวกับการถดถอยโลจิสติก
วิธีดำเนินการถดถอยโลจิสติกใน R
วิธีการดำเนินการถดถอยโลจิสติกใน Python

เพิ่มความคิดเห็น

อีเมลของคุณจะไม่แสดงให้คนอื่นเห็น ช่องข้อมูลจำเป็นถูกทำเครื่องหมาย *