مقدمة في التحليل التمييزي الخطي
عندما يكون لدينا مجموعة من المتغيرات المتوقعة ونريد تصنيف متغير الاستجابة إلى إحدى الفئتين، فإننا نستخدم بشكل عام الانحدار اللوجستي .
على سبيل المثال، يمكننا استخدام الانحدار اللوجستي في السيناريو التالي:
- نريد استخدام درجة الائتمان والرصيد البنكي للتنبؤ بما إذا كان عميل معين سيتخلف عن سداد القرض. (متغير الاستجابة = “افتراضي” أو “لا يوجد افتراضي”)
ومع ذلك، عندما يحتوي متغير الاستجابة على أكثر من فئتين محتملتين، فإننا نفضل عمومًا استخدام طريقة تعرف باسم التحليل التمييزي الخطي ، والتي تسمى غالبًا LDA.
على سبيل المثال، يمكننا استخدام LDA في السيناريو التالي:
- نريد استخدام النقاط لكل لعبة والمرتدات لكل لعبة للتنبؤ بما إذا كان سيتم قبول لاعب كرة سلة معين في المدرسة الثانوية في إحدى المدارس الثلاث: القسم 1، أو القسم 2، أو القسم 3.
على الرغم من استخدام كل من نموذج LDA ونموذج الانحدار اللوجستي للتصنيف ، فقد تبين أن LDA أكثر استقرارًا من الانحدار اللوجستي عندما يتعلق الأمر بالتنبؤات لفئات متعددة وبالتالي فهي الخوارزمية المفضلة للاستخدام عندما يمكن لمتغير الاستجابة أن يستغرق أكثر من اثنين الطبقات.
تعمل LDA أيضًا بشكل أفضل عندما تكون أحجام العينات صغيرة مقارنة بالانحدار اللوجستي، مما يجعلها طريقة مفضلة عندما لا تتمكن من جمع عينات كبيرة.
كيفية إنشاء نماذج LDA
تقوم LDA بوضع الافتراضات التالية في مجموعة بيانات معينة:
(1) يتم توزيع قيم كل متغير متوقع بشكل طبيعي . أي أننا إذا أنشأنا رسمًا بيانيًا لتصور توزيع القيم لمتنبئ معين، فسيكون له تقريبًا “شكل الجرس”.
(2) كل متغير متنبئ له نفس التباين . لا يحدث هذا أبدًا في بيانات العالم الحقيقي، ولهذا السبب نقوم عادةً بقياس كل متغير ليكون له نفس المتوسط والتباين قبل أن يتناسب فعليًا مع نموذج LDA.
بمجرد التحقق من هذه الفرضيات، تقوم LDA بعد ذلك بتقدير القيم التالية:
- μ k : متوسط جميع ملاحظات التدريب للفصل k .
- σ 2 : المتوسط المرجح لتباينات العينة لكل فئة من فئات k .
- π k : نسبة ملاحظات التدريب التي تنتمي إلى الفئة k .
تقوم LDA بعد ذلك بإدخال هذه الأرقام في الصيغة التالية وتعيين كل ملاحظة X = x للفئة التي تنتج لها الصيغة أكبر قيمة:
د ك (س) = س * (μ ك /σ 2 ) – (μ ك 2 /2σ 2 ) + سجل(π ك )
لاحظ أن LDA يحتوي على اسم خطي لأن القيمة التي تنتجها الدالة أعلاه تأتي من نتيجة الدوال الخطية لـ x.
كيفية تحضير البيانات لـ LDA
تأكد من أن بياناتك تستوفي المتطلبات التالية قبل تطبيق نموذج LDA عليها:
1. متغير الاستجابة قاطع . تم تصميم نماذج LDA لاستخدامها في مشاكل التصنيف، حيث يمكن وضع متغير الاستجابة في فئات أو فئات.
2. المتغيرات المتوقعة تتبع التوزيع الطبيعي . أولاً، تحقق من أن كل متغير متنبئ يتم توزيعه بشكل طبيعي تقريبًا. إذا لم يكن الأمر كذلك، فيمكنك اختيار تحويل البيانات أولاً لجعل التوزيع أكثر طبيعية.
3. كل متغير متنبئ له نفس التباين . كما ذكرنا سابقًا، تفترض LDA أن كل متغير متنبئ له نفس التباين. وبما أن هذا نادرًا ما يحدث في الممارسة العملية، فمن الجيد قياس كل متغير في مجموعة البيانات بحيث يكون متوسطه 0 وانحرافه المعياري 1.
4. حساب القيم المتطرفة. تأكد من التحقق من القيم المتطرفة في مجموعة البيانات قبل تطبيق LDA. عادةً، يمكنك التحقق من القيم المتطرفة بصريًا ببساطة عن طريق استخدام المخططات المربعة أو المخططات المبعثرة.
أمثلة على استخدام التحليل التمييزي الخطي
يتم تطبيق نماذج LDA في مجموعة واسعة من المجالات في الحياة الواقعية. وهنا بعض الأمثلة:
1. التسويق . غالبًا ما تستخدم شركات البيع بالتجزئة LDA لتصنيف المتسوقين إلى واحدة من عدة فئات. على سبيل المثال، يمكنهم إنشاء نموذج LDA للتنبؤ بما إذا كان المشتري المعين سيكون منفقًا منخفضًا أو متوسطًا أو مرتفعًا أم لا باستخدام متغيرات التنبؤ مثل الدخل وإجمالي الإنفاق السنوي وحجم الأسرة .
2. الطبية . غالبًا ما تستخدم المستشفيات وفرق البحث الطبي LDA للتنبؤ بما إذا كانت مجموعة معينة من الخلايا غير الطبيعية من المحتمل أن تؤدي إلى مرض خفيف أو متوسط أو شديد.
3. تطوير المنتجات . يمكن للشركات إنشاء نماذج LDA للتنبؤ بما إذا كان مستهلك معين سيستخدم منتجاته يوميًا أو أسبوعيًا أو شهريًا أو سنويًا، بناءً على متغيرات توقعية مختلفة مثل الجنس والدخل السنوي وتكرار استخدام المنتجات المماثلة .
4. البيئة. يمكن للباحثين إنشاء نماذج LDA للتنبؤ بما إذا كانت الشعاب المرجانية المعينة ستتمتع بصحة عامة جيدة أو معتدلة أو سيئة أو مهددة بالانقراض، بناءً على مجموعة متنوعة من المتغيرات المتوقعة مثل الحجم والتلوث السنوي والخسارة . العمر .
LDA في R وPython
توفر البرامج التعليمية التالية أمثلة خطوة بخطوة حول كيفية إجراء تحليل التمييز الخطي في R وPython:
تحليل التمييز الخطي في R (خطوة بخطوة)
التحليل التمييزي الخطي في بايثون (خطوة بخطوة)