ما هو خطأ التنبؤ في الإحصائيات؟ (تعريف وأمثلة)
في الإحصائيات، يشير خطأ التنبؤ إلى الفرق بين القيم التي تنبأت بها نماذج معينة والقيم الفعلية.
غالبًا ما يستخدم خطأ التنبؤ في سياقين:
1. الانحدار الخطي: يستخدم للتنبؤ بقيمة متغير الاستجابة المستمرة.
نحن عادةً نقيس خطأ التنبؤ لنموذج الانحدار الخطي باستخدام مقياس يُعرف باسم RMSE ، والذي يرمز إلى جذر متوسط مربع الخطأ.
يتم حسابه على النحو التالي:
RMSE = √ Σ(ŷ i – y i ) 2 / n
ذهب:
- Σ هو رمز يعني “المجموع”
- ŷ i هي القيمة المتوقعة للملاحظة i
- y i هي القيمة المرصودة للملاحظة i
- n هو حجم العينة
2. الانحدار اللوجستي: يستخدم للتنبؤ بقيمة متغير الاستجابة الثنائية.
إحدى الطرق الشائعة لقياس خطأ التنبؤ لنموذج الانحدار اللوجستي هي استخدام مقياس يُعرف باسم معدل خطأ التصنيف الإجمالي.
يتم حسابه على النحو التالي:
إجمالي معدل التصنيف الخاطئ = (# تنبؤات غير صحيحة / # إجمالي التنبؤات)
كلما انخفضت قيمة معدل سوء التصنيف، كلما كانت قدرة النموذج على التنبؤ بنتائج متغير الاستجابة أفضل.
توضح الأمثلة التالية كيفية حساب خطأ التنبؤ لنموذج الانحدار الخطي ونموذج الانحدار اللوجستي عمليًا.
مثال 1: حساب خطأ التنبؤ في الانحدار الخطي
لنفترض أننا نستخدم نموذج الانحدار للتنبؤ بعدد النقاط التي سيسجلها 10 لاعبين في مباراة كرة السلة.
والجدول التالي يوضح النقاط التي تنبأ بها النموذج مقارنة بالنقاط الفعلية التي سجلها اللاعبون:
يمكننا حساب جذر متوسط مربع الخطأ (RMSE) على النحو التالي:
- RMSE = √ Σ(ŷ i – y i ) 2 / n
- RMSE = √ (((14-12) 2 +(15-15) 2 +(18-20) 2 +(19-16) 2 +(25-20) 2 +(18-19) 2 +(12- 16) 2 +(12-20) 2 +(15-16) 2 +(22-16) 2 ) / 10)
- RMSE = 4
متوسط مربع الخطأ هو 4. وهذا يخبرنا أن متوسط الانحراف بين النقاط المتوقعة المسجلة والنقاط الفعلية المسجلة هو 4.
ذات صلة: ما الذي يعتبر قيمة RMSE جيدة؟
مثال 2: حساب خطأ التنبؤ في الانحدار اللوجستي
لنفترض أننا نستخدم نموذج الانحدار اللوجستي للتنبؤ بما إذا كان سيتم ضم 10 من لاعبي كرة السلة الجامعيين إلى الدوري الاميركي للمحترفين أم لا.
يوضح الجدول التالي النتيجة المتوقعة لكل لاعب مقابل النتيجة الفعلية (1 = مسودة، 0 = غير مسودة):
سنقوم بحساب معدل التصنيف الخاطئ الإجمالي على النحو التالي:
- إجمالي معدل التصنيف الخاطئ = (# تنبؤات غير صحيحة / # إجمالي التنبؤات)
- إجمالي معدل خطأ التصنيف = 4/10
- إجمالي معدل الخطأ في التصنيف = 40%
إجمالي معدل الخطأ في التصنيف هو 40% .
هذه القيمة عالية جدًا، مما يشير إلى أن النموذج لا يقوم بعمل جيد جدًا في التنبؤ بما إذا كان سيتم تجنيد اللاعب أم لا.
مصادر إضافية
توفر البرامج التعليمية التالية مقدمة للأنواع المختلفة من أساليب الانحدار:
مقدمة إلى الانحدار الخطي البسيط
مقدمة في الانحدار الخطي المتعدد
مقدمة في الانحدار اللوجستي