مقدمة لأشجار التصنيف والانحدار
عندما تكون العلاقة بين مجموعة من المتغيرات المتوقعة ومتغير الاستجابة خطية، فإن طرق مثل الانحدار الخطي المتعدد يمكن أن تنتج نماذج تنبؤية دقيقة.
ومع ذلك، عندما تكون العلاقة بين مجموعة من التنبؤات والاستجابة غير خطية ومعقدة إلى حد كبير، فإن الطرق غير الخطية قد تؤدي أداءً أفضل.
ومن أمثلة الطرق غير الخطية أشجار التصنيف والانحدار ، والتي غالبًا ما يتم اختصارها إلى CART .
كما يوحي الاسم، تستخدم نماذج CART مجموعة من المتغيرات المتوقعة لإنشاء أشجار القرار التي تتنبأ بقيمة متغير الاستجابة.
على سبيل المثال، لنفترض أن لدينا مجموعة بيانات تحتوي على متغيرات التوقع سنوات اللعب ومتوسط عدد مرات اللعب على أرضه ومتغير الاستجابة الراتب السنوي لمئات من لاعبي البيسبول المحترفين.
إليك الشكل الذي قد تبدو عليه شجرة الانحدار لمجموعة البيانات هذه:
وطريقة تفسير الشجرة هي كما يلي:
- اللاعبون الذين لعبوا أقل من 4.5 سنوات يحصلون على راتب متوقع قدره 225.8 ألف دولار.
- اللاعبون الذين لعبوا أكثر من 4.5 سنوات أو أكثر وأقل من 16.5 مرة على أرضهم في المتوسط يحصلون على راتب متوقع قدره 577.6 ألف دولار.
- اللاعبون الذين يتمتعون بخبرة 4.5 سنوات أو أكثر في اللعب وبمتوسط 16.5 جولة على أرضهم أو أكثر، يحصلون على راتب متوقع قدره 975.6 ألف دولار.
يجب أن تكون نتائج هذا النموذج منطقية بشكل بديهي: فاللاعبون الذين يتمتعون بسنوات أكبر من الخبرة ومعدلات تشغيل منزلية أكثر يميلون إلى الحصول على رواتب أعلى.
يمكننا بعد ذلك استخدام هذا النموذج للتنبؤ براتب اللاعب الجديد.
على سبيل المثال، لنفترض أن لاعبًا معينًا لعب 8 سنوات ومتوسط 10 جولات على أرضه سنويًا. وفقًا لنموذجنا، نتوقع أن يحصل هذا اللاعب على راتب سنوي قدره 577.6 ألف دولار.
بعض الملاحظات على الشجرة:
- المتغير التنبؤي الأول الموجود في أعلى الشجرة هو الأكثر أهمية، أي المتغير الذي يؤثر أكثر على التنبؤ بقيمة متغير الاستجابة. في هذه الحالة، فإن سنوات اللعب تتنبأ بالراتب بشكل أفضل من متوسط الدوائر .
- تسمى المناطق الموجودة في أسفل الشجرة بالعقد الورقية . تحتوي هذه الشجرة بالذات على ثلاث عقد طرفية.
خطوات إنشاء نماذج CART
يمكننا استخدام الخطوات التالية لإنشاء نموذج CART لمجموعة بيانات معينة:
الخطوة 1: استخدم التقسيم الثنائي العودي لتنمية شجرة كبيرة على بيانات التدريب.
أولاً، نستخدم خوارزمية جشعة تسمى التقسيم الثنائي العودي لتنمية شجرة الانحدار باستخدام الطريقة التالية:
- ضع في اعتبارك جميع المتغيرات المتوقعة X 1 , X 2 , … , الخطأ المعياري المتبقي) الأقل. .
- بالنسبة لأشجار التصنيف، نختار المتنبئ ونقطة القطع بحيث يكون للشجرة الناتجة أقل معدل خطأ في التصنيف.
- كرر هذه العملية، وتوقف فقط عندما يكون لكل عقدة طرفية أقل من حد أدنى معين لعدد الملاحظات.
هذه الخوارزمية جشعة لأنها تحدد في كل خطوة من عملية بناء الشجرة أفضل تقسيم يتم تنفيذه بناءً على تلك الخطوة فقط، بدلاً من النظر إلى المستقبل واختيار تقسيم سيؤدي إلى شجرة عالمية أفضل في مرحلة مستقبلية.
الخطوة 2: قم بتطبيق التقليم المعقد من حيث التكلفة على الشجرة الكبيرة للحصول على تسلسل من أفضل الأشجار، بناءً على α.
بمجرد نمو الشجرة الكبيرة، نحتاج بعد ذلك إلى تقليمها باستخدام طريقة تعرف بالتقليم المعقد، والتي تعمل على النحو التالي:
- لكل شجرة محتملة ذات عقد طرفية T، ابحث عن الشجرة التي تقلل RSS + α|T|.
- لاحظ أنه عندما نزيد قيمة α، يتم معاقبة الأشجار التي تحتوي على المزيد من العقد الطرفية. وهذا يضمن أن الشجرة لا تصبح معقدة للغاية.
تؤدي هذه العملية إلى تسلسل أفضل الأشجار لكل قيمة α.
الخطوة 3: استخدم التحقق المتبادل k-fold لاختيار α.
بمجرد العثور على أفضل شجرة لكل قيمة α، يمكننا تطبيق التحقق المتبادل k-fold لاختيار قيمة α التي تقلل من خطأ الاختبار.
الخطوة 4: اختر القالب النهائي.
وأخيرًا، نختار النموذج النهائي باعتباره النموذج الذي يتوافق مع القيمة المختارة لـ α.
مزايا وعيوب نماذج CART
تقدم نماذج CART المزايا التالية:
- من السهل تفسيرها.
- من السهل شرحها.
- من السهل تصورها.
- ويمكن تطبيقها على كل من مشاكل الانحدار والتصنيف .
ومع ذلك، فإن نماذج CART لها العيوب التالية:
- وهي لا تتمتع بقدر كبير من الدقة التنبؤية مثل خوارزميات التعلم الآلي غير الخطية الأخرى. ومع ذلك، من خلال تجميع العديد من أشجار القرار بطرق مثل التعبئة والتعزيز والغابات العشوائية، يمكن تحسين دقتها التنبؤية.