نقاط f1 مقابل الدقة: ما الذي يجب عليك استخدامه؟


عند استخدام نماذج التصنيف في التعلم الآلي، هناك مقياسان نستخدمهما غالبًا لتقييم جودة النموذج هما درجة F1 والدقة .

بالنسبة لكلا المقياسين، كلما ارتفعت القيمة، زادت قدرة النموذج على تصنيف الملاحظات إلى فئات.

ومع ذلك، يتم حساب كل مقياس باستخدام صيغة مختلفة، وهناك مزايا وعيوب لاستخدامه.

يوضح المثال التالي كيفية حساب كل مقياس عمليًا.

مثال: حساب درجة F1 ودقتها

لنفترض أننا نستخدم نموذج الانحدار اللوجستي للتنبؤ بما إذا كان سيتم ضم 400 لاعب كرة سلة جامعي مختلف إلى الدوري الاميركي للمحترفين أم لا.

تلخص مصفوفة الارتباك التالية التنبؤات التي قدمها النموذج:

فيما يلي كيفية حساب المقاييس المختلفة لمصفوفة الارتباك:

الدقة: تصحيح التنبؤات الإيجابية مقارنة بإجمالي التوقعات الإيجابية

  • الدقة = إيجابية حقيقية / (إيجابية حقيقية + إيجابية كاذبة)
  • الدقة = 120 / (120 + 70)
  • الدقة = 0.63

تذكير: تصحيح التوقعات الإيجابية مقابل مجموع الإيجابيات الفعلية

  • الاستدعاء = إيجابي حقيقي / (إيجابي حقيقي + سلبي كاذب)
  • الاستدعاء = 120 / (120 + 40)
  • أذكر = 0.75

الدقة: النسبة المئوية لجميع الملاحظات المصنفة بشكل صحيح

  • الدقة = (صحيح إيجابي + صحيح سلبي) / (إجمالي حجم العينة)
  • الدقة = (120 + 170) / (400)
  • الدقة = 0.725

درجة F1: المتوسط التوافقي للدقة والاستذكار

  • نتيجة F1 = 2 * (الدقة * الاستدعاء) / (الدقة + الاستدعاء)
  • نتيجة F1 = 2 * (0.63 * 0.75) / (0.63 + 0.75)
  • درجة F1 = 0.685

متى يتم استخدام درجة F1 مقابل الدقة

هناك إيجابيات وسلبيات لاستخدام درجة F1 ودقتها.

دقة :

برو : سهل التفسير. إذا قلنا أن النموذج دقيق بنسبة 90%، فإننا نعلم أنه قد صنف بشكل صحيح 90% من الملاحظات.

العيب : لا يأخذ في الاعتبار كيفية توزيع البيانات. على سبيل المثال، لنفترض أن 90% من جميع اللاعبين لم يتم تجنيدهم في الدوري الاميركي للمحترفين. إذا كان لدينا نموذج يتنبأ ببساطة بأن كل لاعب لن تتم صياغته، فإن النموذج سيتنبأ بشكل صحيح بالنتيجة بالنسبة لـ 90% من اللاعبين. تبدو هذه القيمة عالية، لكن النموذج غير قادر في الواقع على التنبؤ بشكل صحيح باللاعبين الذين سيتم تجنيدهم.

نتائج الفورمولا 1 :

Pro : فكر في كيفية توزيع البيانات. على سبيل المثال، إذا كانت البيانات غير متوازنة إلى حد كبير (على سبيل المثال، 90% من جميع اللاعبين غير مطورين و10% غير مطورين)، فإن درجة F1 ستوفر تقييمًا أفضل لأداء النموذج.

العيب : صعوبة في التفسير. نتيجة F1 عبارة عن مزيج من الدقة واستدعاء النموذج، مما يجعل تفسيرها أكثر صعوبة.

عمومًا:

غالبًا ما نستخدم الدقة عندما تكون الفئات متوازنة ولا يوجد جانب سلبي كبير للتنبؤ بالسلبيات الكاذبة.

غالبًا ما نستخدم درجة F1 عندما تكون الفصول الدراسية غير متوازنة ويكون هناك عيب خطير في التنبؤ بالسلبيات الكاذبة.

على سبيل المثال، إذا استخدمنا نموذج الانحدار اللوجستي للتنبؤ بما إذا كان شخص ما مصابًا بالسرطان أم لا، فإن النتائج السلبية الكاذبة تكون سيئة حقًا (على سبيل المثال التنبؤ بأن الشخص لا يعاني من السرطان عندما يكون مصابًا بالفعل أ) لذا فإن درجة F1 ستعاقب النماذج التي لديها الكثير من السلبيات الكاذبة. أكثر من الدقة.

مصادر إضافية

الانحدار مقابل. التصنيف: ما هو الفرق؟
مقدمة في الانحدار اللوجستي
كيفية إجراء الانحدار اللوجستي في R
كيفية تنفيذ الانحدار اللوجستي في بايثون

Add a Comment

ایمئیل یایینلانمایاجاق ایسته‎نیله‎ن بوشلوقلار خاللانمیشدیر *