مقدمة لخطوط الانحدار التكيفي متعدد المتغيرات
عندما تكون العلاقة بين مجموعة من المتغيرات المتوقعة ومتغير الاستجابة خطية، يمكننا غالبًا استخدام الانحدار الخطي ، والذي يفترض أن العلاقة بين متغير متوقع معين ومتغير الاستجابة تأخذ الشكل التالي:
ص = β 0 + β 1 X + ε
ولكن من الناحية العملية، قد تكون العلاقة بين المتغيرات في الواقع غير خطية وقد تؤدي محاولة استخدام الانحدار الخطي إلى نموذج غير مناسب.
إحدى الطرق لحساب العلاقة غير الخطية بين المتنبئ ومتغير الاستجابة هي استخدام الانحدار متعدد الحدود ، والذي يأخذ الشكل:
Y = β 0 + β 1 X + β 2 X 2 + … + β h
في هذه المعادلة، h تسمى “درجة” كثيرة الحدود. مع زيادة قيمة h ، يصبح النموذج أكثر مرونة وقادرًا على التكيف مع البيانات غير الخطية.
ومع ذلك، فإن الانحدار متعدد الحدود له بعض العيوب:
1. يمكن أن يؤدي الانحدار متعدد الحدود بسهولة إلى زيادة احتواء مجموعة البيانات إذا تم اختيار الدرجة h كبيرة جدًا. من الناحية العملية، نادرًا ما يكون h أكبر من 3 أو 4 لأنه بعد هذه النقطة يتوافق ببساطة مع ضجيج مجموعة التدريب ولا يعمم بشكل جيد على البيانات غير المرئية.
2. يفرض الانحدار متعدد الحدود دالة عالمية على مجموعة البيانات بأكملها، وهي ليست دقيقة دائمًا.
البديل للانحدار متعدد الحدود هو خطوط الانحدار التكيفي متعدد المتغيرات .
الفكرة الأساسية
تعمل شرائح الانحدار التكيفي متعددة المتغيرات على النحو التالي:
1. قم بتقسيم مجموعة البيانات إلى أجزاء k .
أولاً، نقوم بتقسيم مجموعة البيانات إلى عناصر مختلفة. تسمى النقاط التي نقسم فيها مجموعة البيانات بالعقد .
نحدد العقد من خلال تقييم كل نقطة لكل متنبئ كعقدة محتملة وإنشاء نموذج انحدار خطي باستخدام الميزات المرشحة. النقطة القادرة على تقليل معظم الأخطاء في النموذج هي العقدة.
بمجرد تحديد العقدة الأولى، نكرر العملية للعثور على العقد الإضافية. يمكنك العثور على أكبر عدد ممكن من العقد التي تعتقد أنها معقولة للبدء بها.
2. قم بتركيب دالة الانحدار لكل جزء لتكوين وظيفة مفصلية.
بمجرد اختيار العقد وملائمة نموذج الانحدار لكل عنصر في مجموعة البيانات، سننتهي بما يسمى دالة المفصلة ، والتي يُشار إليها بـ h(xa) ، حيث a هي عتبة القيمة (القيم).
على سبيل المثال، قد تكون وظيفة المفصلة لنموذج العقدة الواحدة كما يلي:
- ص = β 0 + β 1 (4.3 – x) إذا كانت x < 4.3
- ص = β 0 + β 1 (س – 4.3) إذا كان x > 4.3
في هذه الحالة، تقرر أن اختيار 4.3 كقيمة عتبة يسمح بتقليل الخطأ الأقصى بين جميع قيم العتبة الممكنة. نقوم بعد ذلك بتناسب نموذج انحدار مختلف مع القيم الأقل من 4.3 مقابل القيم الأعلى من 4.3.
يمكن أن تكون وظيفة المفصلة ذات العقدتين كما يلي:
- ص = β 0 + β 1 (4.3 – x) إذا كانت x < 4.3
- ص = β 0 + β 1 (س – 4.3) إذا كان x > 4.3 & x < 6.7
- ص = β 0 + β 1 (6.7 – x) إذا x > 6.7
في هذه الحالة، تقرر أن اختيار 4.3 و 6.7 كقيم عتبة يسمح بتقليل الخطأ الأقصى بين جميع قيم العتبة الممكنة. ثم نلائم نموذج انحدار واحدًا مع قيم أقل من 4.3، ونموذج انحدار آخر مع قيم بين 4.3 و6.7، ونموذج انحدار آخر مع قيم أعلى من 4.3.
3. اختر k بناءً على التحقق المتبادل من k-fold.
أخيرًا، بمجرد قيامنا بتركيب عدة نماذج مختلفة باستخدام عدد مختلف من العقد لكل نموذج، يمكننا إجراء التحقق من الصحة عبر k-fold لتحديد النموذج الذي ينتج أقل خطأ متوسط مربع للاختبار (MSE).
يتم اختيار النموذج ذو أدنى اختبار MSE باعتباره النموذج الذي يعمم بشكل أفضل على البيانات الجديدة.
المميزات والعيوب
تتميز خطوط الانحدار التكيفي متعددة المتغيرات بالمزايا والعيوب التالية:
المزايا :
- ويمكن استخدامه لكل من مشاكل الانحدار والتصنيف .
- وهذا يعمل بشكل جيد على مجموعات البيانات الكبيرة.
- ويقدم حساب سريع.
- هذا لا يتطلب منك توحيد متغيرات التوقع.
العيوب:
- لا يميل إلى الأداء الجيد مثل الطرق غير الخطية مثل الغابات العشوائية وآلات تعزيز التدرج.
كيفية ملاءمة نماذج MARS في R وPython
توفر البرامج التعليمية التالية أمثلة خطوة بخطوة حول كيفية ملاءمة شرائح الانحدار التكيفي متعدد المتغيرات (MARS) في R وPython:
خطوط الانحدار التكيفي متعدد المتغيرات في R
خطوط الانحدار التكيفي متعدد المتغيرات في بيثون