مقدمة لانحدار المكون الرئيسي


إحدى المشكلات الأكثر شيوعًا التي ستواجهها عند إنشاء النماذج هي التعددية الخطية . يحدث هذا عندما يكون هناك ارتباط كبير بين متغيرين أو أكثر من متغيرات التوقع في مجموعة البيانات.

عندما يحدث هذا، قد يكون نموذج معين قادرًا على ملاءمة مجموعة بيانات التدريب بشكل جيد، ولكن من المحتمل أن يكون أداؤه ضعيفًا على مجموعة بيانات جديدة لم يشاهدها من قبل لأنه يتجاوز مجموعة التدريب.

إحدى طرق تجنب التجهيز الزائد هي استخدام نوع ما من طرق اختيار المجموعة الفرعية مثل:

تحاول هذه الطرق إزالة المتنبئين غير ذوي الصلة من النموذج بحيث لا يتم ترك سوى أهم المتنبئين القادرين على التنبؤ بالتباين في متغير الاستجابة في النموذج النهائي.

هناك طريقة أخرى لتجنب التجهيز الزائد وهي استخدام نوع من طرق التنظيم مثل:

تحاول هذه الأساليب تقييد أو تنظيم معاملات النموذج لتقليل التباين وبالتالي إنتاج نماذج قادرة على تعميم البيانات الجديدة بشكل جيد.

يُعرف النهج المختلف تمامًا للتعامل مع العلاقات الخطية المتعددة باسم تقليل الأبعاد .

تُعرف الطريقة الشائعة لتقليل الأبعاد باسم انحدار المكون الرئيسي ، والذي يعمل على النحو التالي:

1. افترض أن مجموعة بيانات معينة تحتوي على تنبؤات p :

2. احسب Z 1 , … , Z M كمجموعات خطية M من المتنبئين الأصليين p .

  • ض م = ΣΦ جم _
  • Z 1 عبارة عن مجموعة خطية من المتنبئات التي تلتقط أكبر قدر ممكن من التباين.
  • Z 2 هي المجموعة الخطية التالية من المتنبئات التي تلتقط أكبر قدر من التباين بينما تكون متعامدة (أي غير مرتبطة) بـ Z 1 .
  • Z 3 هي المجموعة الخطية التالية من المتنبئات التي تلتقط أكبر قدر من التباين بينما تكون متعامدة مع Z 2 .
  • وما إلى ذلك وهلم جرا.

3. استخدم طريقة المربعات الصغرى لملاءمة نموذج الانحدار الخطي باستخدام المكونات الرئيسية M الأولى Z 1 ، …، Z M كمتنبئات.

يأتي مصطلح تقليل البعد من حقيقة أن هذه الطريقة يجب أن تقدر فقط معاملات M+1 بدلاً من معاملات p+1، حيث M < p.

بمعنى آخر، تم تقليص حجم المشكلة من p+1 إلى M+1.

في العديد من الحالات التي توجد فيها علاقة خطية متعددة في مجموعة بيانات، يكون انحدار المكون الرئيسي قادرًا على إنتاج نموذج يمكنه تعميم البيانات الجديدة بشكل أفضل من الانحدار الخطي المتعدد التقليدي.

خطوات تنفيذ انحدار المكون الرئيسي

من الناحية العملية، يتم استخدام الخطوات التالية لتنفيذ انحدار المكونات الرئيسية:

1. توحيد المتنبئين.

أولاً، نقوم عادةً بتوحيد البيانات بحيث يكون لكل متغير متنبئ قيمة متوسطة تبلغ 0 وانحراف معياري قدره 1. وهذا يمنع أحد المتنبئين من التأثير كثيرًا، خاصة إذا تم قياسه بوحدات مختلفة (ج، أي إذا كان 1 يقاس بالبوصة). ويتم قياس X 2 بالياردات).

2. حساب المكونات الرئيسية وإجراء الانحدار الخطي باستخدام المكونات الرئيسية كمتنبئات.

بعد ذلك، نحسب المكونات الرئيسية ونستخدم طريقة المربعات الصغرى لتناسب نموذج الانحدار الخطي باستخدام المكونات الرئيسية M الأولى Z 1 ، …، Z M كمتنبئات.

3. قرر عدد المكونات الرئيسية التي يجب الاحتفاظ بها.

بعد ذلك، نستخدم التحقق المتقاطع k-fold للعثور على العدد الأمثل للمكونات الرئيسية التي يجب الاحتفاظ بها في النموذج. العدد “الأمثل” للمكونات الرئيسية التي يجب الاحتفاظ بها هو بشكل عام الرقم الذي ينتج أدنى متوسط للخطأ المربع (MSE) للاختبار.

مزايا وعيوب انحدار المكون الرئيسي

يقدم انحدار المكون الرئيسي (PCR) المزايا التالية:

  • يميل تفاعل البوليميراز المتسلسل إلى الأداء الجيد عندما تكون المكونات الرئيسية الأولى قادرة على التقاط معظم التباين في المتنبئات بالإضافة إلى العلاقة مع متغير الاستجابة.
  • يمكن أن يؤدي تفاعل البوليميراز المتسلسل أداءً جيدًا حتى عندما تكون المتغيرات المتنبئة مرتبطة بشكل كبير، لأنه ينتج مكونات رئيسية متعامدة (أي غير مرتبطة) مع بعضها البعض.
  • لا يتطلب منك PCR اختيار متغيرات التوقع المراد إزالتها من النموذج نظرًا لأن كل مكون رئيسي يستخدم مجموعة خطية من جميع متغيرات التوقع.
  • يمكن استخدام PCR عندما تكون هناك متغيرات تنبؤية أكثر من الملاحظات، على عكس الانحدار الخطي المتعدد.

ومع ذلك، فإن PCR لديه عيب:

  • لا يأخذ PCR متغير الاستجابة في الاعتبار عند تحديد المكونات الرئيسية التي يجب الاحتفاظ بها أو إزالتها. وبدلاً من ذلك، فإنه يأخذ في الاعتبار فقط حجم التباين بين متغيرات التوقع التي تم التقاطها بواسطة المكونات الرئيسية. من الممكن في بعض الحالات أن المكونات الرئيسية ذات الاختلافات الأكبر قد لا تكون قادرة على التنبؤ بمتغير الاستجابة بشكل جيد.

من الناحية العملية، نحن نلائم العديد من أنواع النماذج المختلفة (PCR، وRidge، وLasso، والانحدار الخطي المتعدد، وما إلى ذلك) ونستخدم التحقق المتقاطع k-fold لتحديد النموذج الذي ينتج أدنى اختبار MSE على البيانات الجديدة.

في الحالات التي توجد فيها علاقة خطية متعددة في مجموعة البيانات الأصلية (وهذا هو الحال غالبًا)، يميل تفاعل البوليميراز المتسلسل إلى أداء أفضل من انحدار المربعات الصغرى العادية. ومع ذلك، فمن الجيد أن تناسب عدة نماذج مختلفة حتى تتمكن من تحديد أي منها يمكن تعميمه بشكل أفضل على البيانات غير المرئية.

انحدار المكون الرئيسي في R & Python

توضح البرامج التعليمية التالية كيفية إجراء انحدار المكونات الرئيسية في R وPython:

انحدار المكون الرئيسي في R (خطوة بخطوة)
انحدار المكون الرئيسي في بايثون (خطوة بخطوة)

Add a Comment

ایمئیل یایینلانمایاجاق ایسته‎نیله‎ن بوشلوقلار خاللانمیشدیر *