مقدمة في التحليل التمييزي التربيعي


عندما يكون لدينا مجموعة من المتغيرات المتوقعة ونريد تصنيف متغير الاستجابة إلى إحدى الفئتين، فإننا نستخدم بشكل عام الانحدار اللوجستي .

ومع ذلك، عندما يحتوي متغير الاستجابة على أكثر من فئتين محتملتين، فإننا نستخدم عمومًا التحليل التمييزي الخطي ، والذي يُسمى غالبًا LDA.

يفترض LDA أن (1) يتم توزيع الملاحظات في كل فئة بشكل طبيعي و (2) تشترك الملاحظات في كل فئة في نفس مصفوفة التغاير. وباستخدام هذه الافتراضات، يجد LDA القيم التالية:

  • μ k : متوسط جميع ملاحظات التدريب للفصل k .
  • σ 2 : المتوسط المرجح لتباينات العينة لكل فئة من فئات k .
  • π k : نسبة ملاحظات التدريب التي تنتمي إلى الصف k .

تقوم LDA بعد ذلك بإدخال هذه الأرقام في الصيغة التالية وتعيين كل ملاحظة X = x للفئة التي تنتج لها الصيغة أكبر قيمة:

د ك (س) = س * (μ ك2 ) – (μ ك 2 /2σ 2 ) + سجل(π ك )

LDA له اسم خطي لأن القيمة التي تنتجها الوظيفة المذكورة أعلاه تأتي من نتيجة الوظائف الخطية لـ x.

امتداد للتحليل التمييزي الخطي هو التحليل التمييزي التربيعي ، وغالبًا ما يسمى QDA.

تشبه هذه الطريقة طريقة LDA وتفترض أيضًا أن ملاحظات كل فئة يتم توزيعها بشكل طبيعي، ولكنها لا تفترض أن كل فئة تشترك في نفس مصفوفة التغاير. بدلاً من ذلك، تفترض QDA أن كل فئة لها مصفوفة التغاير الخاصة بها.

بمعنى آخر، يفترض أن ملاحظة الفئة k هي من الشكل X ~ N(μ k , Σ k ).

باستخدام هذا الافتراض، تقوم QDA بعد ذلك بالبحث عن القيم التالية:

  • μ k : متوسط جميع ملاحظات التدريب للفصل k .
  • Σ k : مصفوفة التغاير من الصنف k .
  • π k : نسبة ملاحظات التدريب التي تنتمي إلى الصف k .

تقوم QDA بعد ذلك بإدخال هذه الأرقام في الصيغة التالية وتعيين كل ملاحظة X = x للفئة التي تنتج لها الصيغة أكبر قيمة:

د ك (س) = -1/2*(x-μ ك ) T Σ ك -1 (x-μ ك ) – 1/2*سجل|Σ ك | + سجل ( πك )

لاحظ أن QDA يحتوي على دالة تربيعية في اسمها لأن القيمة التي تنتجها الدالة أعلاه تأتي من نتيجة الدوال التربيعية لـ x.

LDA vs QDA: متى يجب استخدام أحدهما أو الآخر

الفرق الرئيسي بين LDA وQDA هو أن LDA تفترض أن كل فئة تشترك في مصفوفة التغاير، مما يجعلها أقل مرونة بكثير من المصنف QDA.

وهذا يعني بطبيعته أن لديه تباينًا منخفضًا، أي أنه سيؤدي نفس الشيء على مجموعات بيانات التدريب المختلفة. الجانب السلبي هو أنه إذا كان الافتراض بأن فئات K لها نفس التباين المشترك خاطئ، فقد يعاني LDA من انحياز عالي .

يُفضل QDA بشكل عام على LDA في المواقف التالية:

(1) مجموعة التدريب كبيرة.

(2) من غير المرجح أن تشترك فئات K في مصفوفة التغاير المشتركة.

عند استيفاء هذه الشروط، يميل QDA إلى الأداء بشكل أفضل لأنه أكثر مرونة ويمكنه التكيف مع البيانات بشكل أفضل.

كيفية إعداد البيانات لQDA

تأكد من أن بياناتك تلبي المتطلبات التالية قبل تطبيق نموذج QDA عليها:

1. متغير الاستجابة قاطع . تم تصميم نماذج QDA لاستخدامها في مشاكل التصنيف ، أي عندما يمكن وضع متغير الاستجابة في فئات أو فئات.

2. إن الملاحظات في كل فصل تتبع التوزيع الطبيعي . أولاً، تأكد من أن توزيع القيم في كل فئة يتم توزيعه بشكل طبيعي تقريبًا. إذا لم يكن الأمر كذلك، فيمكنك اختيار تحويل البيانات أولاً لجعل التوزيع أكثر طبيعية.

3. حساب القيم المتطرفة. تأكد من التحقق من القيم المتطرفة في مجموعة البيانات قبل تطبيق LDA. عادةً، يمكنك التحقق من القيم المتطرفة بصريًا ببساطة عن طريق استخدام المخططات المربعة أو المخططات المبعثرة.

QDA في R وPython

توفر البرامج التعليمية التالية أمثلة خطوة بخطوة حول كيفية إجراء تحليل التمييز التربيعي في R وPython:

تحليل التمييز التربيعي في R (خطوة بخطوة)
التحليل التمييزي التربيعي في بايثون (خطوة بخطوة)

Add a Comment

ایمئیل یایینلانمایاجاق ایسته‎نیله‎ن بوشلوقلار خاللانمیشدیر *