كيفية تفسير إحصائية c لنموذج الانحدار اللوجستي
يقدم هذا البرنامج التعليمي شرحًا بسيطًا لكيفية تفسير إحصائية C لنموذج الانحدار اللوجستي.
ما هو الانحدار اللوجستي؟
الانحدار اللوجستي هو طريقة إحصائية نستخدمها لتناسب نموذج الانحدار عندما يكون متغير الاستجابة ثنائيًا. فيما يلي بعض الأمثلة على استخدام الانحدار اللوجستي:
- نريد أن نعرف كيف تؤثر التمارين الرياضية والنظام الغذائي والوزن على احتمالية الإصابة بنوبة قلبية. متغير الاستجابة هو نوبة قلبية وله نتيجتان محتملتان: حدوث نوبة قلبية أو عدم حدوثها.
- نريد أن نعرف كيف يؤثر المعدل التراكمي (GPA) ودرجة ACT وعدد دورات AP التي تم تلقيها على احتمالية القبول في جامعة معينة. متغير الاستجابة هو القبول وله نتيجتان محتملتان: مقبول أو غير مقبول.
- نريد أن نعرف ما إذا كان عدد الكلمات وعنوان البريد الإلكتروني يؤثران على احتمالية كون البريد الإلكتروني بريدًا عشوائيًا. متغير الاستجابة هو بريد عشوائي وله نتيجتان محتملتان: بريد عشوائي أو ليس بريدًا عشوائيًا.
لاحظ أن المتغيرات التوقعية يمكن أن تكون رقمية أو فئوية؛ المهم هو أن متغير الاستجابة ثنائي. وفي هذه الحالة، يكون الانحدار اللوجستي نموذجًا مناسبًا لاستخدامه لشرح العلاقة بين متغيرات التوقع ومتغير الاستجابة.
كيفية تقييم مدى كفاية نموذج الانحدار اللوجستي
بمجرد أن نلائم نموذج الانحدار اللوجستي مع مجموعة بيانات، فإننا غالبًا ما نهتم بمدى ملاءمة النموذج للبيانات. وعلى وجه التحديد، نحن مهتمون بقدرة النموذج على التنبؤ بدقة بالنتائج الإيجابية والسلبية.
تشير الحساسية إلى احتمال أن يتنبأ النموذج بنتيجة إيجابية للملاحظة عندما تكون النتيجة إيجابية بالفعل.
تشير الخصوصية إلى احتمال أن يتنبأ النموذج بنتيجة سلبية لملاحظة ما عندما تكون النتيجة سلبية بالفعل.
يعد نموذج الانحدار اللوجستي مثاليًا لتصنيف الملاحظات إذا كان يتمتع بحساسية وخصوصية بنسبة 100%، لكن هذا لا يحدث أبدًا في الممارسة العملية.
بمجرد تركيب نموذج الانحدار اللوجستي، يمكن استخدامه لحساب احتمالية أن يكون لملاحظة معينة نتيجة إيجابية، بناءً على قيم متغيرات التوقع.
لتحديد ما إذا كان ينبغي تصنيف الملاحظة على أنها إيجابية، يمكننا اختيار عتبة بحيث يتم تصنيف الملاحظات ذات الاحتمال المعدل فوق العتبة على أنها إيجابية ويتم تصنيف جميع الملاحظات ذات الاحتمال المعدل أقل من العتبة على أنها سلبية. .
على سبيل المثال، لنفترض أننا اخترنا عتبة قدرها 0.5. وهذا يعني أن أي ملاحظة ذات احتمال معدل أكبر من 0.5 ستكون لها نتيجة إيجابية، في حين أن أي ملاحظة ذات احتمال معدل أقل من أو يساوي 0.5 ستكون لها نتيجة سلبية.
رسم منحنى ROC
إحدى الطرق الأكثر شيوعًا لتصور حساسية النموذج مقابل خصوصيته هي رسم منحنى خاصية تشغيل المستقبل ( ROC )، وهو رسم بياني لقيم الحساسية مقابل الخصوصية 1 كقيمة العتبة. النقطة تنتقل من 0 إلى 1:
سيكون للنموذج ذو الحساسية والخصوصية العالية منحنى ROC يناسب الزاوية اليسرى العليا من المخطط. سيكون للنموذج ذو الحساسية المنخفضة والخصوصية المنخفضة منحنى قريب من قطري 45 درجة.
تعطينا AUC (المنطقة أسفل المنحنى) فكرة عن قدرة النموذج على التمييز بين النتائج الإيجابية والسلبية. يمكن أن تتراوح المساحة تحت المنحنى من 0 إلى 1. وكلما ارتفعت المساحة تحت المنحنى، كان النموذج أفضل في تصنيف النتائج بشكل صحيح.
وهذا يعني أن النموذج الذي يحتوي على منحنى ROC الذي يعانق الزاوية اليسرى العليا من المخطط سيكون له مساحة عالية أسفل المنحنى، وبالتالي سيكون نموذجًا يقوم بعمل جيد في تصنيف النتائج بشكل صحيح. على العكس من ذلك، فإن النموذج الذي يحتوي على منحنى ROC الذي يعانق قطرًا قدره 45 درجة سيكون له مساحة منخفضة أسفل المنحنى، وبالتالي سيكون نموذجًا لا يقوم بعمل جيد في تصنيف النتائج.
فهم إحصائية C
إحصائية c ، والمعروفة أيضًا باسم إحصائية التوافق ، تساوي AUC (المساحة تحت المنحنى) ولها التفسيرات التالية:
- تشير القيمة الأقل من 0.5 إلى نموذج رديء.
- تشير القيمة 0.5 إلى أن النموذج ليس أفضل من الصدفة في تصنيف النتائج.
- كلما اقتربت القيمة من 1، زادت قدرة النموذج على تصنيف النتائج بشكل صحيح.
- القيمة 1 تعني أن النموذج مثالي لتصنيف النتائج.
لذا، فإن إحصائية C تعطينا فكرة عن مدى فعالية النموذج في تصنيف النتائج بشكل صحيح.
في بيئة سريرية، من الممكن حساب إحصائية C عن طريق أخذ جميع الأزواج الممكنة من الأفراد، أي فرد حصل على نتيجة إيجابية وفرد حصل على نتيجة سلبية. ثم يمكن حساب إحصائية c كنسبة من هذه الأزواج التي كان لدى الفرد الذي حصل على نتيجة إيجابية احتمالية متوقعة أعلى لتجربة النتيجة من الفرد الذي لم يواجه النتيجة الإيجابية.
على سبيل المثال، لنفترض أننا نلائم نموذج الانحدار اللوجستي باستخدام متغيرات التنبؤ مثل العمر وضغط الدم للتنبؤ باحتمالية الإصابة بنوبة قلبية.
للعثور على إحصائية C للنموذج، تمكنا من تحديد جميع الأزواج المحتملة من الأفراد، والتي تتكون من فرد أصيب بنوبة قلبية وفرد لم يصاب بنوبة قلبية. ثم يمكن حساب إحصائية c كنسبة من هذه الأزواج التي كان فيها الفرد الذي عانى من نوبة قلبية لديه بالفعل احتمالية أعلى للإصابة بنوبة قلبية مقارنة بالفرد الذي لم يعاني من نوبة قلبية. نوبة قلبية.
خاتمة
وفي هذا المقال تعلمنا ما يلي:
- الانحدار اللوجستي هو طريقة إحصائية نستخدمها لتناسب نموذج الانحدار عندما يكون متغير الاستجابة ثنائيًا.
- لتقييم مدى ملاءمة نموذج الانحدار اللوجستي، يمكننا أن ننظر إلى الحساسية والنوعية ، التي تخبرنا بمدى قدرة النموذج على تصنيف النتائج بشكل صحيح.
- لتصور الحساسية والنوعية، يمكننا إنشاء منحنى ROC .
- تشير AUC (المنطقة الموجودة أسفل المنحنى) إلى مدى قدرة النموذج على تصنيف النتائج بشكل صحيح. عندما يعانق منحنى ROC الزاوية اليسرى العليا من المخطط، فإنه يشير إلى أن النموذج يقوم بتصنيف النتائج بنجاح.
- تساوي إحصائية c المساحة تحت المنحنى (AUC) ويمكن حسابها أيضًا عن طريق أخذ جميع الأزواج الممكنة من الأفراد، أي فرد حصل على نتيجة إيجابية وفرد حصل على نتيجة سلبية. بعد ذلك، فإن إحصائية c هي نسبة هذه الأزواج التي كان لدى الفرد الذي شهد نتيجة إيجابية احتمالية متوقعة أعلى لتجربة النتيجة من الفرد الذي لم يواجه النتيجة الإيجابية.
- كلما كانت إحصائية C أقرب إلى 1، كلما كان النموذج قادرًا على تصنيف النتائج بشكل صحيح.