مقدمة إلى المربعات الصغرى الجزئية
إحدى المشاكل الأكثر شيوعًا التي ستواجهها في التعلم الآلي هي تعدد الخطية . يحدث هذا عندما يكون هناك ارتباط كبير بين متغيرين أو أكثر من متغيرات التوقع في مجموعة البيانات.
عندما يحدث ذلك، قد يكون النموذج قادرًا على ملاءمة مجموعة بيانات التدريب بشكل جيد، ولكنه قد يكون أداؤه ضعيفًا على مجموعة بيانات جديدة لم يسبق له رؤيتها لأنها تتفوق على مجموعة بيانات التدريب. عدة التدريبات.
إحدى الطرق للتغلب على مشكلة التعددية الخطية هي استخدام انحدار المكونات الرئيسية ، الذي يحسب مجموعات خطية M (تسمى “المكونات الرئيسية”) لمتغيرات توقع p الأصلية ثم يستخدم طريقة المربعات الصغرى لتناسب نموذج الانحدار الخطي باستخدام المبدأ المكونات كما تنبئ.
عيب انحدار المكون الرئيسي (PCR) هو أنه لا يأخذ في الاعتبار متغير الاستجابة عند حساب المكونات الرئيسية.
وبدلاً من ذلك، فإنه يأخذ في الاعتبار فقط حجم التباين بين متغيرات التوقع التي تم التقاطها بواسطة المكونات الرئيسية. ولهذا السبب، من الممكن في بعض الحالات أن المكونات الرئيسية ذات أكبر الانحرافات قد لا تكون قادرة على التنبؤ بمتغير الاستجابة بشكل جيد.
تُعرف التقنية المتعلقة بـ PCR بالمربعات الصغرى الجزئية . على غرار PCR، تحسب المربعات الصغرى الجزئية مجموعات خطية M (تسمى “مكونات PLS”) لمتغيرات توقع p الأصلية وتستخدم طريقة المربعات الصغرى لتناسب نموذج الانحدار الخطي باستخدام مكونات PLS كمتنبئات.
ولكن على عكس PCR، تحاول المربعات الصغرى الجزئية العثور على مجموعات خطية تفسر التباين في كل من متغير الاستجابة والمتغيرات المتوقعة.
خطوات تنفيذ المربعات الصغرى الجزئية
ومن الناحية العملية، يتم استخدام الخطوات التالية لإجراء المربعات الصغرى الجزئية.
1. توحيد البيانات بحيث يكون لجميع متغيرات التوقع ومتغير الاستجابة متوسط 0 وانحراف معياري 1. وهذا يضمن قياس كل متغير على نفس المقياس.
2. احسب Z 1 , … , Z M كمجموعات خطية M من المتنبئين الأصليين p .
- ض م = ΣΦ جم _
- لحساب Z 1 ، قم بتعيين Φ j1 مساوية لمعامل الانحدار الخطي البسيط لـ Y على X j هو مزيج خطي من المتنبئين الذي يلتقط أكبر قدر ممكن من التباين.
- لحساب Z 2 ، ارجع كل متغير إلى Z 1 وخذ الباقي. ثم احسب Z 2 باستخدام هذه البيانات المتعامدة بنفس الطريقة التي تم بها حساب Z 1 .
- كرر هذه العملية مرات M للحصول على مكونات M PLS.
3. استخدم طريقة المربعات الصغرى لملاءمة نموذج الانحدار الخطي باستخدام مكونات PLS Z 1 ، …، Z M كمتنبئات.
4. أخيرًا، استخدم التحقق المتقاطع k-fold للعثور على العدد الأمثل لمكونات PLS للاحتفاظ بها في النموذج. العدد “الأمثل” لمكونات PLS التي يجب الاحتفاظ بها هو بشكل عام الرقم الذي ينتج أدنى خطأ في متوسط مربع الاختبار (MSE).
خاتمة
في الحالات التي توجد فيها علاقة خطية متعددة في مجموعة بيانات، يميل انحدار المربعات الصغرى الجزئي إلى الأداء بشكل أفضل من انحدار المربعات الصغرى العادي. ومع ذلك، فمن الجيد أن تناسب عدة نماذج مختلفة حتى تتمكن من تحديد أي منها يمكن تعميمه بشكل أفضل على البيانات غير المرئية.
من الناحية العملية، نحن نلائم العديد من أنواع النماذج المختلفة (PLS، و PCR ، وRidge ، و Lasso ، والانحدار الخطي المتعدد ، وما إلى ذلك) لمجموعة بيانات ونستخدم التحقق المتقاطع k-fold لتحديد النموذج الذي ينتج اختبار MSE بشكل أفضل. انخفاض في البيانات الجديدة. .