مقدمة بسيطة للغابات العشوائية


عندما تكون العلاقة بين مجموعة من المتغيرات المتوقعة ومتغير الاستجابة معقدة للغاية، فإننا غالبًا ما نستخدم أساليب غير خطية لنمذجة العلاقة بينهما.

إحدى هذه الطرق هي أشجار التصنيف والانحدار (غالبًا ما يتم اختصارها بـ CART)، والتي تستخدم مجموعة من المتغيرات المتوقعة لإنشاء أشجار القرار التي تتنبأ بقيمة متغير الاستجابة.

مثال على شجرة الانحدار التي تستخدم سنوات من الخبرة ومتوسط عدد الدورات المنزلية للتنبؤ براتب لاعب بيسبول محترف.

ميزة أشجار القرار هي أنها سهلة التفسير والتصور. المشكلة هي أنهم يميلون إلى المعاناة من التباين العالي . أي أننا إذا قسمنا مجموعة بيانات إلى نصفين وقمنا بتطبيق شجرة قرارات على كلا النصفين، فقد تكون النتائج مختلفة تمامًا.

إحدى الطرق لتقليل تباين أشجار القرار هي استخدام طريقة تُعرف باسم التعبئة ، والتي تعمل على النحو التالي:

1. خذ عينات تمهيدية من مجموعة البيانات الأصلية.

2. قم بإنشاء شجرة قرارات لكل عينة تمهيدية.

3. متوسط التوقعات من كل شجرة للحصول على النموذج النهائي.

وتتمثل ميزة هذا النهج في أن النموذج المجمع يوفر بشكل عام تحسينًا في معدل خطأ الاختبار مقارنة بشجرة قرار واحدة.

الجانب السلبي هو أن التنبؤات من مجموعة الأشجار المعبأة يمكن أن تكون مرتبطة بشكل كبير إذا كان هناك مؤشر قوي جدًا في مجموعة البيانات. في هذه الحالة، ستستخدم معظم الأشجار المعبأة أو جميعها هذا المتنبئ للانقسام الأول، مما يؤدي إلى ظهور أشجار متشابهة مع بعضها البعض ولها تنبؤات شديدة الارتباط.

لذلك عندما نقوم بحساب متوسط التوقعات من كل شجرة للوصول إلى النموذج النهائي، فمن الممكن أن هذا النموذج لا يقلل فعليًا من التباين مقارنة بشجرة قرار واحدة.

إحدى الطرق للتغلب على هذه المشكلة هي استخدام طريقة تُعرف باسم الغابات العشوائية .

ما هي الغابات العشوائية؟

على غرار التعبئة، تأخذ الغابات العشوائية أيضًا عينات تمهيدية من مجموعة بيانات أصلية.

ومع ذلك، عند إنشاء شجرة قرار لكل عينة تمهيد، في كل مرة يتم فيها أخذ الانقسام في الشجرة في الاعتبار، تعتبر عينة عشوائية فقط من المتنبئين m مرشحة للتقسيم بين المجموعة الكاملة من المتنبئين p .

إذن هذه هي الطريقة الكاملة التي تستخدمها الغابات العشوائية لإنشاء نموذج:

1. خذ عينات تمهيدية من مجموعة البيانات الأصلية.

2. قم بإنشاء شجرة قرارات لكل عينة تمهيدية.

  • عند إنشاء الشجرة، في كل مرة يتم فيها أخذ الانقسام في الاعتبار، تعتبر عينة عشوائية فقط من المتنبئين m مرشحين للانقسام من المجموعة الكاملة للمتنبئين p .

3. متوسط التوقعات من كل شجرة للحصول على النموذج النهائي.

باستخدام هذه الطريقة، يتم تزيين مجموعة الأشجار في غابة عشوائية مقارنة بالأشجار المنتجة عن طريق التعبئة.

لذلك عندما نأخذ متوسط التوقعات من كل شجرة للوصول إلى النموذج النهائي، فإنه يميل إلى أن يكون أقل تباينًا ويؤدي إلى معدل خطأ في الاختبار أقل من النموذج المعبأ.

عند استخدام الغابات العشوائية، فإننا نعتبر عمومًا المتنبئين m = √ p كمرشحين منقسمين في كل مرة نقوم فيها بتقسيم شجرة القرار.

على سبيل المثال، إذا كان لدينا إجمالي تنبؤات p = 16 في مجموعة بيانات، فإننا نعتبر بشكل عام فقط m = √16 = 4 تنبؤات كمرشحين محتملين لكل تقسيم.

ملاحظة تقنية:

ومن المثير للاهتمام أننا إذا اخترنا m = p (أي أننا نعتبر جميع المتنبئين مرشحين عند كل تقسيم)، فإن هذا يعادل ببساطة استخدام التعبئة.

تقدير الأخطاء خارج الحقيبة

كما هو الحال مع التعبئة، يمكننا حساب خطأ الاختبار لنموذج الغابة العشوائي باستخدام تقدير خارج الحقيبة .

يمكن إثبات أن كل عينة تمهيد تحتوي على حوالي 2/3 من الملاحظات من مجموعة البيانات الأصلية. يُطلق على الثلث المتبقي من الملاحظات غير المستخدمة لتناسب الشجرة ملاحظات خارج الحقيبة (OOB) .

يمكننا التنبؤ بقيمة الملاحظة رقم 1 في مجموعة البيانات الأصلية عن طريق أخذ متوسط التنبؤ من كل شجرة كانت تلك الملاحظة فيها OOB.

يمكننا استخدام هذا النهج للتنبؤ بجميع الملاحظات n في مجموعة البيانات الأصلية وبالتالي حساب معدل الخطأ، وهو تقدير صالح لخطأ الاختبار.

تتمثل ميزة استخدام هذا النهج لتقدير خطأ الاختبار في أنه أسرع بكثير من التحقق المتقاطع k-fold ، خاصة عندما تكون مجموعة البيانات كبيرة.

مزايا وعيوب الغابات العشوائية

توفر الغابات العشوائية المزايا التالية:

  • في معظم الحالات، ستوفر الغابات العشوائية تحسينًا في الدقة مقارنة بالنماذج المعبأة وخاصةً عبر أشجار القرار الفردية.
  • الغابات العشوائية قوية بالنسبة للقيم المتطرفة.
  • لا يلزم إجراء معالجة مسبقة لاستخدام الغابات العشوائية.

ومع ذلك، فإن الغابات العشوائية لها العيوب المحتملة التالية:

  • من الصعب تفسيرها.
  • يمكن أن تكون مكثفة حسابيًا (أي بطيئة) للاعتماد على مجموعات كبيرة من البيانات.

من الناحية العملية، عادة ما يستخدم علماء البيانات الغابات العشوائية لتحقيق أقصى قدر من الدقة التنبؤية، لذا فإن حقيقة عدم قابليتها للتفسير بسهولة لا تمثل مشكلة في العادة.

Add a Comment

ایمئیل یایینلانمایاجاق ایسته‎نیله‎ن بوشلوقلار خاللانمیشدیر *