معدل خطأ التصنيف في التعلم الآلي: التعريف والمثال
في التعلم الآلي، يعد معدل التصنيف الخاطئ مقياسًا يخبرنا بالنسبة المئوية للملاحظات التي تم التنبؤ بها بشكل غير صحيح بواسطة نموذج التصنيف .
يتم حسابه على النحو التالي:
معدل التصنيف الخاطئ = # تنبؤات غير صحيحة / # إجمالي التنبؤات
يمكن أن تختلف قيمة معدل التصنيف الخاطئ من 0 إلى 1 حيث:
- يمثل 0 نموذجًا لا يحتوي على تنبؤات غير صحيحة.
- يمثل الشكل 1 نموذجًا كانت توقعاته غير صحيحة تمامًا.
كلما انخفضت قيمة معدل التصنيف الخاطئ، كانت قدرة نموذج التصنيف على التنبؤ بنتائج متغير الاستجابة أفضل.
يوضح المثال التالي كيفية حساب معدل خطأ التصنيف لنموذج الانحدار اللوجستي عمليًا.
مثال: حساب معدل خطأ التصنيف لنموذج الانحدار اللوجستي
لنفترض أننا نستخدم نموذج الانحدار اللوجستي للتنبؤ بما إذا كان سيتم ضم 400 لاعب كرة سلة جامعي مختلف إلى الدوري الاميركي للمحترفين أم لا.
تلخص مصفوفة الارتباك التالية التنبؤات التي قدمها النموذج:
فيما يلي كيفية حساب معدل خطأ التصنيف للنموذج:
- معدل التصنيف الخاطئ = # تنبؤات غير صحيحة / # إجمالي التنبؤات
- معدل خطأ التصنيف = (الإيجابيات الكاذبة + السلبيات الكاذبة) / (إجمالي التوقعات)
- معدل الخطأ في التصنيف = (70 + 40) / (400)
- معدل سوء التصنيف = 0.275
معدل خطأ التصنيف لهذا النموذج هو 0.275 أو 27.5% .
وهذا يعني أن النموذج توقع النتيجة بشكل غير صحيح بالنسبة لـ 27.5% من اللاعبين.
وعكس معدل خطأ التصنيف هو الدقة، والتي يتم حسابها على النحو التالي:
- الدقة = 1 – معدل الخطأ في التصنيف
- الدقة = 1 – 0.275
- الدقة = 0.725
وهذا يعني أن النموذج تنبأ بالنتيجة بشكل صحيح بالنسبة لـ 72.5% من اللاعبين.
مزايا وعيوب معدل الخطأ في التصنيف
يوفر معدل التصنيف الخاطئ الفوائد التالية:
- من السهل تفسيرها . معدل خطأ التصنيف الذي يبلغ 10% يعني أن النموذج قام بتنبؤ غير صحيح لـ 10% من إجمالي الملاحظات.
- من السهل حسابها . يتم حساب معدل التصنيف الخاطئ على أنه إجمالي عدد التنبؤات غير الصحيحة مقسومًا على إجمالي عدد التنبؤات.
ومع ذلك، فإن معدل الخطأ في التصنيف له العيوب التالية:
- وهذا لا يأخذ في الاعتبار كيفية توزيع البيانات . على سبيل المثال، لنفترض أن 90% من جميع اللاعبين لم يتم تجنيدهم في الدوري الاميركي للمحترفين. إذا كان لدينا نموذج يتنبأ ببساطة بأن كل لاعب لن تتم صياغته، فسيكون معدل خطأ التصنيف في النموذج 10٪ فقط. يبدو هذا منخفضًا، لكن النموذج غير قادر في الواقع على التنبؤ بشكل صحيح باللاعب الذي سيتم تجنيده.
من الناحية العملية، غالبًا ما نحسب معدل خطأ تصنيف النموذج باستخدام مقاييس أخرى مثل:
- الحساسية : “المعدل الإيجابي الحقيقي” – النسبة المئوية للنتائج الإيجابية التي يستطيع النموذج اكتشافها.
- الخصوصية : “المعدل السلبي الحقيقي” – النسبة المئوية للنتائج السلبية التي يستطيع النموذج اكتشافها.
- درجة F1 : مقياس يخبرنا بمدى دقة النموذج مقارنة بكيفية توزيع البيانات.
ومن خلال حساب قيمة كل من هذه المقاييس، يمكننا أن نفهم تمامًا مدى قدرة النموذج على تقديم التنبؤات.
مصادر إضافية
توفر البرامج التعليمية التالية معلومات إضافية حول مفاهيم التعلم الآلي الشائعة:
مقدمة في الانحدار اللوجستي
ما هي الدقة المتوازنة؟
نقاط F1 مقابل الدقة: ما الذي يجب عليك استخدامه؟