ما هو "الخير"؟ دقة نماذج التعلم الآلي؟
عند استخدام نماذج التصنيف في التعلم الآلي، فإن أحد المقاييس التي نستخدمها غالبًا لتقييم جودة النموذج هو الدقة .
الدقة هي ببساطة النسبة المئوية لجميع الملاحظات المصنفة بشكل صحيح حسب النموذج.
يتم حسابه على النحو التالي:
الدقة = (# الإيجابيات الحقيقية + # السلبيات الحقيقية) / (إجمالي حجم العينة)
السؤال الذي يطرحه الطلاب غالبًا حول الدقة هو:
ما الذي يعتبر قيمة “جيدة” لدقة نموذج التعلم الآلي؟
على الرغم من أن دقة النموذج يمكن أن تتراوح بين 0% و100%، إلا أنه لا يوجد حد عالمي نستخدمه لتحديد ما إذا كان النموذج يتمتع بدقة “جيدة” أم لا.
وبدلاً من ذلك، فإننا عادةً ما نقارن دقة نموذجنا بدقة النموذج المرجعي.
يتنبأ النموذج الأساسي ببساطة بأن كل ملاحظة في مجموعة البيانات تنتمي إلى الفئة الأكثر شيوعًا.
من الناحية العملية، يمكن اعتبار أي نموذج تصنيف بدقة أعلى من النموذج المرجعي “مفيدًا”، ولكن من الواضح أنه كلما زاد الفرق في الدقة بين نموذجنا والنموذج المرجعي، كلما كان ذلك أفضل.
يوضح المثال التالي كيفية تحديد ما إذا كان نموذج التصنيف يتمتع بدقة “جيدة” أم لا.
مثال: تحديد ما إذا كان النموذج يتمتع بدقة “جيدة”.
لنفترض أننا نستخدم نموذج الانحدار اللوجستي للتنبؤ بما إذا كان سيتم ضم 400 لاعب كرة سلة جامعي مختلف إلى الدوري الاميركي للمحترفين أم لا.
تلخص مصفوفة الارتباك التالية التنبؤات التي قدمها النموذج:
وإليك كيفية حساب دقة هذا النموذج:
- الدقة = (# الإيجابيات الحقيقية + # السلبيات الحقيقية) / (إجمالي حجم العينة)
- الدقة = (120 + 170) / (400)
- الدقة = 0.725
تنبأ النموذج بشكل صحيح بالنتيجة بالنسبة لـ 72.5% من اللاعبين.
للحصول على فكرة عما إذا كانت الدقة “جيدة” أم لا، يمكننا حساب دقة النموذج الأساسي.
في هذا المثال، كانت النتيجة الأكثر شيوعًا للاعبين هي عدم التصميم. على وجه التحديد، 240 من أصل 400 لاعبًا ذهبوا دون صياغة.
سيكون النموذج الأساسي هو النموذج الذي يتنبأ ببساطة بأن كل لاعب لن تتم صياغته.
سيتم حساب دقة هذا النموذج على النحو التالي:
- الدقة = (# الإيجابيات الحقيقية + # السلبيات الحقيقية) / (إجمالي حجم العينة)
- الدقة = (0 + 240) / (400)
- الدقة = 0.6
من شأن هذا النموذج الأساسي أن يتنبأ بالنتيجة بشكل صحيح بالنسبة لـ 60% من اللاعبين.
في هذا السيناريو، يوفر نموذج الانحدار اللوجستي الخاص بنا تحسنًا ملحوظًا في الدقة مقارنة بالنموذج الأساسي، لذلك نعتبر نموذجنا “مفيدًا” على الأقل.
من الناحية العملية، من المحتمل أن نلائم عدة نماذج تصنيف مختلفة ونختار النموذج النهائي باعتباره النموذج الذي يوفر أكبر قدر من الدقة مقارنة بالنموذج الأساسي.
احتياطات لاستخدام الدقة لتقييم أداء النموذج
الدقة هي مقياس شائع الاستخدام لأنه من السهل تفسيره.
على سبيل المثال، إذا قلنا أن النموذج دقيق بنسبة 90%، فإننا نعلم أنه قد صنف بشكل صحيح 90% من الملاحظات.
ومع ذلك، فإن الدقة لا تأخذ في الاعتبار كيفية توزيع البيانات.
على سبيل المثال، لنفترض أن 90% من جميع اللاعبين لم يتم تجنيدهم في الدوري الاميركي للمحترفين. إذا كان لدينا نموذج يتنبأ ببساطة بأن كل لاعب لن تتم صياغته، فإن النموذج سيتنبأ بشكل صحيح بالنتيجة بالنسبة لـ 90% من اللاعبين.
تبدو هذه القيمة عالية، لكن النموذج غير قادر في الواقع على التنبؤ بشكل صحيح باللاعبين الذين سيتم تجنيدهم.
يُطلق على المقياس البديل المستخدم غالبًا اسم F1 Score ، والذي يأخذ في الاعتبار كيفية توزيع البيانات.
على سبيل المثال، إذا كانت البيانات غير متوازنة إلى حد كبير (على سبيل المثال، 90% من جميع اللاعبين غير مطورين و10% غير مطورين)، فإن درجة F1 ستوفر تقييمًا أفضل لأداء النموذج.
تعرف على المزيد حول الاختلافات بين الدقة ودرجة F1 هنا .
مصادر إضافية
توفر البرامج التعليمية التالية معلومات إضافية حول المقاييس المستخدمة في نماذج تصنيف التعلم الآلي: