مقدمة للتعبئة في التعلم الآلي
عندما تكون العلاقة بين مجموعة من المتغيرات المتوقعة ومتغير الاستجابة خطية، يمكننا استخدام طرق مثل الانحدار الخطي المتعدد لنمذجة العلاقة بين المتغيرات.
ومع ذلك، عندما تكون العلاقة أكثر تعقيدًا، غالبًا ما نضطر إلى اللجوء إلى الأساليب غير الخطية.
إحدى هذه الطرق هي أشجار التصنيف والانحدار (غالبًا ما يتم اختصارها بـ CART)، والتي تستخدم مجموعة من المتغيرات المتوقعة لإنشاء أشجار القرار التي تتنبأ بقيمة متغير الاستجابة.

ومع ذلك، فإن الجانب السلبي لنماذج CART هو أنها تميل إلى المعاناة من التباين العالي . أي أننا إذا قسمنا مجموعة بيانات إلى نصفين وقمنا بتطبيق شجرة قرارات على كلا النصفين، فقد تكون النتائج مختلفة تمامًا.
تُعرف إحدى الطرق التي يمكننا استخدامها لتقليل تباين نماذج CART باسم التعبئة ، والتي تسمى أحيانًا تجميع التمهيد .
ما هو التعبئة؟
عندما نقوم بإنشاء شجرة قرار واحدة، فإننا نستخدم فقط مجموعة واحدة من بيانات التدريب لبناء النموذج.
ومع ذلك، يتم استخدام الطريقة التالية في التعبئة :
1. خذ عينات تمهيدية من مجموعة البيانات الأصلية.
- تذكر أن العينة التي تم تمهيدها هي عينة من مجموعة البيانات الأصلية التي يتم فيها أخذ الملاحظات مع الاستبدال.
2. قم بإنشاء شجرة قرارات لكل عينة تمهيدية.
3. متوسط التوقعات من كل شجرة للحصول على النموذج النهائي.
- بالنسبة لأشجار الانحدار، فإننا نأخذ متوسط التنبؤ الذي قامت به الأشجار B.
- بالنسبة لأشجار التصنيف، فإننا نأخذ التنبؤ الأكثر شيوعًا الذي تقوم به الأشجار B.
يمكن استخدام التعبئة مع أي خوارزمية للتعلم الآلي، ولكنها مفيدة بشكل خاص لأشجار القرار لأنها تتميز بطبيعتها بتباين عالٍ والتعبئة قادرة على تقليل التباين بشكل كبير، مما يؤدي إلى تقليل أخطاء الاختبار.
لتطبيق التعبئة على أشجار القرار، نقوم بزراعة أشجار فردية في العمق دون تقليمها. وينتج عن هذا أشجار فردية ذات تباين عالٍ، ولكن انحياز منخفض. ثم عندما نأخذ متوسط التوقعات من هذه الأشجار، فإننا قادرون على تقليل التباين.
ومن الناحية العملية، يتم تحقيق الأداء الأمثل عادةً باستخدام ما بين 50 إلى 500 شجرة، ولكن من الممكن تركيب آلاف الأشجار لإنتاج نموذج نهائي.
فقط ضع في اعتبارك أن تركيب المزيد من الأشجار سيتطلب المزيد من قوة الحوسبة، والتي قد تكون أو لا تمثل مشكلة اعتمادًا على حجم مجموعة البيانات.
تقدير الأخطاء خارج الحقيبة
اتضح أنه يمكننا حساب خطأ الاختبار للنموذج المعبأ دون الاعتماد على التحقق المتقاطع k-fold .
والسبب هو أنه يمكن إظهار أن كل عينة تمهيد تحتوي على حوالي 2/3 من الملاحظات من مجموعة البيانات الأصلية. يُطلق على الثلث المتبقي من الملاحظات غير المستخدمة لتناسب الشجرة المعبأة ملاحظات خارج الحقيبة (OOB) .
يمكننا التنبؤ بقيمة الملاحظة رقم 1 في مجموعة البيانات الأصلية عن طريق أخذ متوسط التنبؤ من كل شجرة كانت تلك الملاحظة فيها OOB.
يمكننا استخدام هذا النهج للتنبؤ بجميع الملاحظات n في مجموعة البيانات الأصلية وبالتالي حساب معدل الخطأ، وهو تقدير صالح لخطأ الاختبار.
وتتمثل ميزة استخدام هذا النهج لتقدير خطأ الاختبار في أنه أسرع بكثير من التحقق المتبادل من k-fold، خاصة عندما تكون مجموعة البيانات كبيرة.
فهم أهمية المتنبئين
تذكر أن إحدى مزايا أشجار القرار هي سهولة تفسيرها وتصورها.
عندما نستخدم التعبئة بدلاً من ذلك، لم نعد قادرين على تفسير أو تصور شجرة فردية لأن النموذج النهائي المعبأ هو نتيجة لحساب متوسط العديد من الأشجار المختلفة. نحن نكتسب دقة التنبؤ على حساب قابلية التفسير.
ومع ذلك، لا يزال بإمكاننا فهم أهمية كل متغير متنبئ عن طريق حساب التخفيض الإجمالي في RSS (مجموع المربعات المتبقية) بسبب التوزيع على متنبئ معين، متوسطًا على جميع أشجار B. كلما كانت القيمة أكبر، زادت أهمية المتنبئ.

وبالمثل، بالنسبة لنماذج التصنيف، يمكننا حساب إجمالي انخفاض مؤشر جيني بسبب التوزيع على متنبئ معين، بمتوسط على جميع الأشجار B. كلما كانت القيمة أكبر، كلما كان المتنبئ أكثر أهمية.
لذا، في حين أننا لا نستطيع تفسير النموذج الشامل النهائي تمامًا، فلا يزال بإمكاننا الحصول على فكرة عن مدى أهمية كل متغير متنبئ عند التنبؤ بالاستجابة.
اذهب إلى ما هو أبعد من التعبئة
وتتمثل ميزة التعبئة في أنها توفر عمومًا تحسنًا في معدل خطأ الاختبار مقارنة بشجرة قرار واحدة.
الجانب السلبي هو أن التنبؤات من مجموعة الأشجار المعبأة يمكن أن تكون مرتبطة بشكل كبير إذا كان هناك مؤشر قوي جدًا في مجموعة البيانات.
في هذه الحالة، ستستخدم معظم الأشجار المعبأة أو جميعها هذا المتنبئ للانقسام الأول، مما يؤدي إلى ظهور أشجار متشابهة مع بعضها البعض ولها تنبؤات شديدة الارتباط.
إحدى الطرق للتغلب على هذه المشكلة هي استخدام الغابات العشوائية، التي تستخدم طريقة مشابهة للتعبئة ولكنها قادرة على إنتاج أشجار مزخرفة، مما يؤدي غالبًا إلى انخفاض معدلات أخطاء الاختبار.
يمكنك قراءة مقدمة بسيطة عن الغابات العشوائية هنا .
مصادر إضافية
مقدمة لأشجار التصنيف والانحدار
كيفية إجراء التعبئة في R (خطوة بخطوة)