شجرة القرار مقابل الغابات العشوائية: ما الفرق؟
شجرة القرار هي نوع من نماذج التعلم الآلي المستخدمة عندما تكون العلاقة بين مجموعة من متغيرات التوقع ومتغير الاستجابة غير خطية.
الفكرة الأساسية وراء شجرة القرار هي بناء “شجرة” باستخدام مجموعة من المتغيرات المتوقعة التي تتنبأ بقيمة متغير الاستجابة باستخدام قواعد القرار.
على سبيل المثال، يمكننا استخدام متغيرات التوقع “سنوات اللعب” و”متوسط عدد مرات اللعب على أرضه” للتنبؤ بالراتب السنوي للاعبي البيسبول المحترفين.
باستخدام مجموعة البيانات هذه، هذا ما يمكن أن يبدو عليه نموذج شجرة القرار:
إليك كيفية تفسير شجرة القرار هذه:
- اللاعبون الذين لعبوا أقل من 4.5 سنوات يحصلون على راتب متوقع قدره 225.8 ألف دولار .
- اللاعبون الذين لعبوا أكثر من 4.5 سنوات أو أكثر وأقل من 16.5 مرة على أرضهم في المتوسط يحصلون على راتب متوقع قدره 577.6 ألف دولار .
- اللاعبون الذين يتمتعون بخبرة 4.5 سنوات أو أكثر وبمتوسط 16.5 أو أكثر في المنزل يحصلون على راتب متوقع قدره 975.6 ألف دولار .
الميزة الرئيسية لشجرة القرار هي أنه يمكن تكييفها بسرعة مع مجموعة البيانات ويمكن تصور النموذج النهائي وتفسيره بوضوح باستخدام مخطط “شجرة” مثل الرسم أعلاه.
العيب الرئيسي هو أن شجرة القرار تميل إلى تجاوز مجموعة بيانات التدريب، مما يعني أنه من المحتمل أن يكون أداؤها سيئًا على البيانات غير المرئية. يمكن أن يتأثر هذا أيضًا بشدة بالقيم المتطرفة في مجموعة البيانات.
امتداد شجرة القرار هو نموذج يعرف باسم الغابة العشوائية ، وهي في الأساس مجموعة من أشجار القرار.
فيما يلي الخطوات التي نستخدمها لإنشاء نموذج غابة عشوائي:
1. خذ عينات تمهيدية من مجموعة البيانات الأصلية.
2. لكل عينة تمهيد، أنشئ شجرة قرارات باستخدام مجموعة فرعية عشوائية من متغيرات التوقع.
3. متوسط التوقعات من كل شجرة للحصول على النموذج النهائي.
تتمثل ميزة الغابات العشوائية في أنها تميل إلى الأداء بشكل أفضل بكثير من أشجار القرار فيما يتعلق بالبيانات غير المرئية وتكون أقل عرضة للقيم المتطرفة.
الجانب السلبي للغابات العشوائية هو أنه لا توجد طريقة لتصور النموذج النهائي ويمكن أن يستغرق بنائها وقتًا طويلاً إذا لم يكن لديك قوة حاسوبية كافية أو كانت مجموعة البيانات التي تعمل بها ضخمة للغاية.
المزايا والعيوب: أشجار القرار مقابل أشجار القرار غابات عشوائية
يلخص الجدول التالي مزايا وعيوب أشجار القرار مقارنة بالغابات العشوائية:
وفيما يلي شرح مختصر لكل صف في الجدول:
1. القابلية للتفسير
من السهل تفسير أشجار القرار لأنه يمكننا إنشاء مخطط شجرة لتصور النموذج النهائي وفهمه.
على العكس من ذلك، لا يمكننا تصور غابة عشوائية وقد يكون من الصعب في كثير من الأحيان فهم كيفية اتخاذ نموذج الغابة العشوائي النهائي للقرارات.
2. الدقة
نظرًا لأنه من المرجح أن تفرط أشجار القرار في مجموعة بيانات التدريب، فإنها تميل إلى الأداء بشكل أسوأ في مجموعات البيانات غير المرئية.
على العكس من ذلك، تميل الغابات العشوائية إلى أن تكون دقيقة للغاية في مجموعات البيانات غير المرئية لأنها تتجنب الإفراط في تركيب مجموعات بيانات التدريب.
3. التجهيز الزائد
كما ذكرنا سابقًا، غالبًا ما تتفوق أشجار القرار على بيانات التدريب: وهذا يعني أنها من المحتمل أن تتكيف مع “ضجيج” مجموعة البيانات، على عكس النموذج الأساسي الحقيقي.
على العكس من ذلك، نظرًا لأن الغابات العشوائية تستخدم فقط متغيرات تنبؤية معينة لبناء كل شجرة قرار فردية، فإن الأشجار النهائية تميل إلى التزيين، مما يعني أنه من غير المرجح أن تقوم نماذج الغابة العشوائية بتجاوز مجموعات البيانات.
4. القيم المتطرفة
أشجار القرار معرضة جدًا للتأثر بالقيم المتطرفة.
على العكس من ذلك، نظرًا لأن نموذج الغابة العشوائية يبني العديد من أشجار القرار الفردية ثم يأخذ متوسط التنبؤات من تلك الأشجار، فمن غير المرجح أن يتأثر بالقيم المتطرفة.
5. الحساب
يمكن تكييف أشجار القرار بسرعة مع مجموعات البيانات.
على العكس من ذلك، تعد الغابات العشوائية أكثر كثافة من الناحية الحسابية ويمكن أن يستغرق إنشاؤها وقتًا طويلاً اعتمادًا على حجم مجموعة البيانات.
متى تستخدم أشجار القرار أو الغابات العشوائية
عمومًا:
يجب عليك استخدام شجرة القرار إذا كنت تريد إنشاء نموذج غير خطي بسرعة وتكون قادرًا على تفسير كيفية اتخاذ النموذج للقرارات بسهولة.
ومع ذلك، يجب عليك استخدام مجموعة عشوائية إذا كان لديك قدر كبير من القوة الحسابية وترغب في إنشاء نموذج من المرجح أن يكون دقيقًا للغاية دون القلق بشأن كيفية تفسير النموذج.
في العالم الحقيقي، غالبًا ما يستخدم مهندسو التعلم الآلي وعلماء البيانات الغابات العشوائية لأنها دقيقة للغاية ويمكن لأجهزة الكمبيوتر والأنظمة الحديثة في كثير من الأحيان التعامل مع مجموعات كبيرة من البيانات التي لم يكن من الممكن التعامل معها من قبل.
مصادر إضافية
توفر البرامج التعليمية التالية مقدمة لأشجار القرار ونماذج الغابات العشوائية:
تشرح البرامج التعليمية التالية كيفية ملاءمة أشجار القرار والغابات العشوائية في R: