ما هو المصيدة المتغيرة الوهمية؟ (التعريف & #038؛ مثال)
الانحدار الخطي هو أسلوب يمكننا استخدامه لقياس العلاقة بين واحد أو أكثر من متغيرات التوقع ومتغير الاستجابة .
نستخدم عمومًا الانحدار الخطي مع المتغيرات الكمية . تسمى أحيانًا بالمتغيرات “الرقمية”، وهي متغيرات تمثل كمية قابلة للقياس. الامثله تشمل:
- عدد الأمتار المربعة في المنزل
- الحجم السكاني للمدينة
- عمر الفرد
ومع ذلك، في بعض الأحيان نرغب في استخدام المتغيرات الفئوية كمتغيرات تنبؤية. هذه هي المتغيرات التي تأخذ أسماء أو تسميات ويمكن أن تندرج في فئات. الامثله تشمل:
- لون العين (على سبيل المثال “أزرق”، “أخضر”، “بني”)
- الجنس (على سبيل المثال “رجل”، “امرأة”)
- الحالة الاجتماعية (على سبيل المثال “متزوج”، “أعزب”، “مطلق”)
عند استخدام المتغيرات الفئوية، ليس من المنطقي تخصيص قيم مثل 1، 2، 3 لقيم مثل “الأزرق” و”الأخضر” و”البني” فقط، لأنه ليس من المنطقي قول ذلك أن اللون الأخضر مزدوج . ملون مثل اللون الأزرق أو البني أكثر لونًا بثلاث مرات من اللون الأزرق.
بدلا من ذلك، الحل هو استخدام المتغيرات الوهمية . هذه هي المتغيرات التي نقوم بإنشائها خصيصًا لتحليل الانحدار والتي تأخذ إحدى القيمتين: صفر أو واحد.
عدد المتغيرات الوهمية التي نحتاج إلى إنشائها يساوي k -1 حيث k هو عدد القيم المختلفة التي يمكن أن يأخذها المتغير الفئوي.
على سبيل المثال، لنفترض أن لدينا مجموعة البيانات التالية ونريد استخدام الحالة الاجتماعية والعمر للتنبؤ بالدخل :
لاستخدام الحالة الاجتماعية كمتغير متوقع في نموذج الانحدار، نحتاج إلى تحويله إلى متغير وهمي.
نظرًا لأن هذا متغير فئة حاليًا يمكن أن يأخذ ثلاث قيم مختلفة (“أعزب” أو “متزوج” أو “مطلق”)، فنحن بحاجة إلى إنشاء k -1 = 3-1 = 2 متغيرات وهمية.
لإنشاء هذا المتغير الوهمي، يمكننا ترك “مفرد” كقيمة أساسية لأنه يظهر في أغلب الأحيان. إذن، إليك كيفية تحويل الحالة الاجتماعية إلى متغيرات وهمية:
يمكننا بعد ذلك استخدام العمر والمتزوج والمطلق كمتغيرات تنبؤية في نموذج الانحدار.
عند إنشاء متغيرات وهمية، يمكن أن تنشأ مشكلة تُعرف باسم مصيدة المتغيرات الوهمية . يحدث هذا عندما نقوم بإنشاء متغيرات وهمية k بدلاً من المتغيرات الوهمية k -1.
عندما يحدث هذا، فإن اثنين على الأقل من المتغيرات الوهمية سيعانيان من تعدد الخطية التام. وبعبارة أخرى، سوف تكون مرتبطة تماما. وينتج عن هذا حسابات غير صحيحة لمعاملات الانحدار والقيم الاحتمالية المقابلة لها.
مصيدة المتغير الوهمي: عندما يكون عدد المتغيرات الوهمية التي تم إنشاؤها مساوياً لعدد القيم التي يمكن أن تأخذها القيمة الفئوية. يؤدي هذا إلى تعدد الخطية، مما يؤدي إلى حسابات غير صحيحة لمعاملات الانحدار والقيم الاحتمالية.
على سبيل المثال، لنفترض أننا قمنا بتحويل الحالة الاجتماعية إلى المتغيرات الوهمية التالية:
في هذه الحالة، يكون الأعزب والمتزوج مرتبطين تمامًا ولديهما معامل ارتباط قدره -1.
لذلك عندما نقوم بإجراء الانحدار الخطي المتعدد، ستكون حسابات معامل الانحدار غير صحيحة.
كيفية تجنب فخ المتغير الوهمي
كل ما عليك فعله هو أن تتذكر قاعدة واحدة لتجنب الوقوع في فخ المتغيرات الوهمية:
إذا كان يمكن للمتغير الفئوي أن يأخذ قيم k مختلفة، فيجب عليك فقط إنشاء متغيرات وهمية k-1 لاستخدامها في نموذج الانحدار.
على سبيل المثال، لنفترض أنك تريد تحويل المتغير الفئوي “السنة الدراسية” إلى متغيرات وهمية. لنفترض أن هذا المتغير يأخذ القيم التالية:
- طالب في السنة الأولى
- طالب في السنة الثانية
- مبتدئ
- كبير
وبما أن هذا المتغير يمكن أن يأخذ 4 قيم مختلفة، فسوف نقوم بإنشاء 3 متغيرات وهمية فقط. على سبيل المثال، يمكن أن تكون متغيراتنا الوهمية:
- X 1 = 1 إذا كان طالبًا في السنة الثانية؛ 0 غير ذلك
- X 2 = 1 إذا كان جونيور؛ 0 غير ذلك
- X 3 = 1 سنة كبار؛ 0 غير ذلك
وبما أن عدد المتغيرات الوهمية أقل بواحد من عدد القيم التي يمكن أن يأخذها “العام الدراسي”، فيمكننا تجنب فخ المتغير الوهمي ومشكلة الخطية المتعددة.
مصادر إضافية
كيفية استخدام المتغيرات الوهمية في تحليل الانحدار
مقدمة في الانحدار الخطي المتعدد
دليل للتعددية الخطية في الانحدار