ما هو النموذج البخيل؟


النموذج البخل هو النموذج الذي يحقق المستوى المطلوب من الملاءمة باستخدام أقل عدد ممكن من المتغيرات التوضيحية .

ينبع السبب وراء هذا النوع من النماذج من فكرة شفرة أوكام (التي تسمى أحيانًا “مبدأ البخل”) والتي تقول إن التفسير الأبسط هو على الأرجح التفسير الصحيح.

عند تطبيقها على الإحصائيات، يجب تفضيل النموذج الذي يحتوي على عدد قليل من المعلمات ولكنه يحقق مستوى مُرضيًا من الملاءمة على النموذج الذي يحتوي على عدد كبير من المعلمات ولا يحقق سوى مستوى أعلى قليلاً من الملاءمة.

هناك سببان لهذا:

1. النماذج البخيلة أسهل في التفسير والفهم. النماذج ذات المعلمات الأقل تكون أسهل في الفهم والشرح.

2. تميل النماذج البخل إلى امتلاك قدرة تنبؤية أكبر. تميل النماذج ذات المعلمات الأقل إلى الأداء بشكل أفضل عند تطبيقها على البيانات الجديدة.

خذ بعين الاعتبار المثالين التاليين لتوضيح هذه الأفكار.

مثال 1: نماذج بخيلة = تفسير سهل

لنفترض أننا نريد بناء نموذج باستخدام مجموعة من المتغيرات التوضيحية المتعلقة بالعقارات للتنبؤ بأسعار العقارات. خذ بعين الاعتبار النموذجين التاليين مع مربع R المعدل:

النموذج 1:

  • المعادلة: سعر المنزل = 8,830 + 81*(قدم مربع)
  • تعديل R2 : 0.7734

النموذج 2:

  • المعادلة: سعر المنزل = 8,921 + 77*(قدم مربع) + 7*(قدم مربع) 2 – 9*(العمر) + 600*(غرف النوم) + 38*(الحمامات)
  • تعديل R2 : 0.7823

يحتوي النموذج الأول على متغير توضيحي واحد فقط و R2 معدل قدره 0.7734، بينما يحتوي النموذج الثاني على خمسة متغيرات توضيحية مع R2 معدل أعلى قليلاً.

واستنادا إلى مبدأ البخل، فإننا نفضل استخدام النموذج الأول لأن كل نموذج لديه تقريبا نفس القدرة على تفسير التباين في أسعار المنازل ولكن النموذج الأول أسهل بكثير في الفهم والتفسير.

على سبيل المثال، في النموذج الأول، نعلم أن زيادة وحدة واحدة في المساحة بالقدم المربع للمنزل ترتبط بمتوسط زيادة في سعر المنزل بمقدار 81 دولارًا. انها بسيطة لفهم وشرح.

ومع ذلك، في المثال الثاني، يكون تفسير تقديرات المعامل أكثر صعوبة. على سبيل المثال، ترتبط غرفة إضافية في المنزل بمتوسط زيادة في سعر المنزل قدره 600 دولار، على افتراض أن المساحة بالقدم المربع وعمر المنزل وعدد الحمامات تظل ثابتة. إنه أكثر صعوبة في الفهم والشرح.

مثال 2: نماذج بخيلة = تنبؤات أفضل

تميل النماذج البخسة أيضًا إلى تقديم تنبؤات أكثر دقة لمجموعات البيانات الجديدة لأنها أقل عرضة للتجاوز في مجموعة البيانات الأصلية.

بشكل عام، النماذج ذات المعلمات الأكثر ستنتج تناسبًا أكثر إحكامًا وقيم R 2 أعلى من النماذج ذات المعلمات الأقل. لسوء الحظ، قد يؤدي تضمين عدد كبير جدًا من المعلمات في النموذج إلى تكيف النموذج مع تشويش (أو “عشوائية”) البيانات، بدلاً من العلاقة الأساسية الحقيقية بين المتغيرات التوضيحية. ومتغيرات الاستجابة

وهذا يعني أن النموذج المعقد للغاية الذي يحتوي على العديد من المعلمات من المرجح أن يكون أداءه سيئًا على مجموعة بيانات جديدة لم يسبق له رؤيتها من قبل، مقارنة بنموذج أبسط يحتوي على معلمات أقل.

كيفية اختيار نموذج شحيح

من الممكن أن تكون هناك دورة كاملة مخصصة لموضوع اختيار النموذج ، ولكن في الأساس، اختيار نموذج بخيل يعني اختيار نموذج يقدم أفضل أداء وفقًا لمقياس ما.

تتضمن المقاييس شائعة الاستخدام التي تقيم النماذج بناءً على أدائها في مجموعة بيانات التدريب وعدد المعلمات الخاصة بها ما يلي:

1. معيار المعلومات Akaike (AIC)

يمكن حساب AIC للنموذج على النحو التالي:

AIC = -2/ن * ليرة لبنانية + 2 * ك/ن

ذهب:

  • n: عدد الملاحظات في مجموعة بيانات التدريب.
  • LL: احتمالية تسجيل النموذج في مجموعة بيانات التدريب.
  • ك: عدد المعلمات في النموذج.

باستخدام هذه الطريقة، يمكنك حساب AIC لكل نموذج ثم تحديد النموذج ذو أقل قيمة AIC كأفضل نموذج.

يميل هذا النهج إلى تفضيل النماذج الأكثر تعقيدًا مقارنةً بالطريقة التالية، BIC.

2. معيار المعلومات بايزي (BIC)

يمكن حساب BIC للنموذج على النحو التالي:

BIC = -2 * LL + سجل(ن) * ك

ذهب:

  • n: عدد الملاحظات في مجموعة بيانات التدريب.
  • log: اللوغاريتم الطبيعي (القاعدة e)
  • LL: احتمالية تسجيل النموذج في مجموعة بيانات التدريب.
  • ك: عدد المعلمات في النموذج.

باستخدام هذه الطريقة، يمكنك حساب BIC لكل نموذج ثم تحديد النموذج ذو أقل قيمة BIC كأفضل نموذج.

يميل هذا النهج إلى تفضيل النماذج ذات المعلمات الأقل مقارنة بطريقة AIC.

3. الحد الأدنى لطول الوصف (MDL)

MDL هي طريقة لتقييم النماذج من مجال نظرية المعلومات. ويمكن حسابها على النحو التالي:

MDL = L(ح) + L(D | ح)

ذهب:

  • ح: النموذج.
  • د: التنبؤات التي قدمها النموذج.
  • L(h): عدد البتات المطلوبة لتمثيل النموذج.
  • L(D | h): عدد البتات المطلوبة لتمثيل تنبؤات النموذج على بيانات التدريب.

باستخدام هذه الطريقة، يمكنك حساب MDL لكل نموذج ثم تحديد النموذج ذو قيمة MDL الأقل كأفضل نموذج.

اعتمادًا على نوع المشكلة التي تعمل عليها، قد يتم تفضيل إحدى هذه الطرق – AIC أو BIC أو MDL – على الطرق الأخرى لاختيار نموذج بخيل.

Add a Comment

ایمئیل یایینلانمایاجاق ایسته‎نیله‎ن بوشلوقلار خاللانمیشدیر *