مقدمة في الانحدار الخطي المتعدد
عندما نريد أن نفهم العلاقة بين متغير متنبئ واحد ومتغير الاستجابة، فإننا غالبا ما نستخدم الانحدار الخطي البسيط .
ومع ذلك، إذا أردنا فهم العلاقة بين متغيرات التوقع المتعددة ومتغير الاستجابة، فيمكننا استخدام الانحدار الخطي المتعدد .
إذا كان لدينا متغيرات توقعية ، فإن نموذج الانحدار الخطي المتعدد يأخذ الشكل:
Y = β 0 + β 1 X 1 + β 2 X 2 + … + β p
ذهب:
- Y : متغير الاستجابة
- X j : المتغير التنبئي j
- β j : متوسط التأثير على Y لزيادة وحدة واحدة في X j ، مع تثبيت جميع المتنبئات الأخرى
- ε : مصطلح الخطأ
يتم اختيار قيم β 0 , β 1 , B 2 , …, β p باستخدام طريقة المربعات الصغرى التي تقلل مجموع مربعات البقايا (RSS):
RSS = Σ(y i – ŷ i ) 2
ذهب:
- Σ : رمز يوناني معناه المجموع
- y i : قيمة الاستجابة الفعلية للملاحظة رقم i
- ŷ i : قيمة الاستجابة المتوقعة بناءً على نموذج الانحدار الخطي المتعدد
الطريقة المستخدمة للعثور على تقديرات المعاملات هذه مرتبطة بجبر المصفوفات ولن ندخل في التفاصيل هنا. ولحسن الحظ، يمكن لأي برنامج إحصائي أن يحسب لك هذه المعاملات.
كيفية تفسير مخرجات الانحدار الخطي المتعدد
لنفترض أننا نلائم نموذج الانحدار الخطي المتعدد باستخدام المتغيرات المتوقعة وساعات الدراسة والامتحانات التحضيرية التي تم إجراؤها ، بالإضافة إلى درجة امتحان متغير الإجابة.
توضح لقطة الشاشة التالية الشكل الذي قد تبدو عليه نتيجة الانحدار الخطي المتعدد لهذا النموذج:
ملاحظة: توضح لقطة الشاشة أدناه مخرجات الانحدار الخطي المتعدد لبرنامج Excel ، ولكن الأرقام الموضحة في المخرجات هي نموذجية لمخرجات الانحدار التي ستراها باستخدام أي برنامج إحصائي.
من نتائج النموذج، تسمح لنا المعاملات بتكوين نموذج انحدار خطي متعدد تقديري:
درجة الامتحان = 67.67 + 5.56*(ساعات) – 0.60*(الاختبارات التحضيرية)
وطريقة تفسير المعاملات هي كما يلي:
- ترتبط كل زيادة بمقدار وحدة واحدة إضافية في ساعات الدراسة بمتوسط زيادة قدرها 5.56 نقطة في درجة الامتحان، على افتراض أن الامتحانات التدريبية تظل ثابتة.
- ويرتبط كل زيادة وحدة إضافية في الامتحانات التحضيرية بانخفاض متوسطه 0.60 نقطة في درجة الامتحان، على افتراض أن عدد ساعات الدراسة يظل ثابتا.
يمكننا أيضًا استخدام هذا النموذج لتحديد درجة الامتحان المتوقعة التي سيحصل عليها الطالب بناءً على إجمالي عدد الساعات المدروسة والاختبارات الإعدادية التي تم إجراؤها. على سبيل المثال، الطالب الذي يدرس لمدة 4 ساعات ويأخذ امتحانًا تحضيريًا واحدًا يجب أن يحصل على درجة 89.31 في الامتحان:
درجة الامتحان = 67.67 + 5.56*(4) -0.60*(1) = 89.31
فيما يلي كيفية تفسير بقية نتائج النموذج:
- مربع R: ويسمى بمعامل التحديد. هي نسبة تباين متغير الاستجابة التي يمكن تفسيرها بالمتغيرات التفسيرية. في هذا المثال، يتم تفسير 73.4% من التباين في درجات الامتحان بعدد ساعات الدراسة وعدد الاختبارات الإعدادية التي تم إجراؤها.
- الخطأ القياسي: هذا هو متوسط المسافة بين القيم المرصودة وخط الانحدار. في هذا المثال، تنحرف القيم المرصودة في المتوسط بمقدار 5366 وحدة عن خط الانحدار.
- F: هذه هي إحصائية F الإجمالية لنموذج الانحدار، والتي يتم حسابها على أنها Regression MS/Residual MS.
- معنى F: هذه هي القيمة p المرتبطة بإحصائيات F الإجمالية. يخبرنا هذا ما إذا كان نموذج الانحدار ككل ذو دلالة إحصائية أم لا. وبعبارة أخرى، فإنه يخبرنا ما إذا كان المتغيران التوضيحيان مجتمعان لهما ارتباط ذو دلالة إحصائية مع متغير الاستجابة. وفي هذه الحالة تكون القيمة p أقل من 0.05، مما يدل على أن المتغيرات التوضيحية وساعات الدراسة والامتحانات التحضيرية مجتمعة، لها علاقة ذات دلالة إحصائية بنتيجة الامتحان.
- قيم P للمعامل. تخبرنا القيم p الفردية ما إذا كان كل متغير توضيحي ذو دلالة إحصائية أم لا. يمكننا أن نرى أن ساعات الدراسة ذات دلالة إحصائية (ع = 0.00) في حين أن الامتحانات التحضيرية التي تم إجراؤها (ع = 0.52) ليست ذات دلالة إحصائية عند α = 0.05. وبما أن الامتحانات الإعدادية السابقة ليست ذات دلالة إحصائية، فقد ينتهي بنا الأمر إلى اتخاذ قرار بإزالتها من النموذج.
كيفية تقييم مدى ملاءمة نموذج الانحدار الخطي المتعدد
يتم استخدام رقمين بشكل شائع لتقييم مدى ملاءمة نموذج الانحدار الخطي المتعدد لمجموعة بيانات:
1. R-squared: هي نسبة التباين في متغير الاستجابة التي يمكن تفسيرها بواسطة المتغيرات المتوقعة.
يمكن أن تتراوح قيمة R-squared من 0 إلى 1. وتشير القيمة 0 إلى أنه لا يمكن تفسير متغير الاستجابة بواسطة متغير التوقع على الإطلاق. تشير القيمة 1 إلى أنه يمكن تفسير متغير الاستجابة بشكل مثالي دون أخطاء بواسطة متغير التوقع.
كلما ارتفع مربع R في النموذج، زادت قدرة النموذج على احتواء البيانات.
2. الخطأ المعياري: وهو متوسط المسافة بين القيم المرصودة وخط الانحدار. كلما كان الخطأ القياسي أصغر، كانت قدرة النموذج على ملاءمة البيانات أفضل.
إذا أردنا إجراء تنبؤات باستخدام نموذج الانحدار، فقد يكون الخطأ المعياري للانحدار مقياسًا أكثر فائدة في معرفته من R-squared، لأنه يمنحنا فكرة عن مدى دقة تنبؤاتنا من حيث الوحدات.
للحصول على شرح كامل لإيجابيات وسلبيات استخدام R-squared مقابل الخطأ القياسي لتقييم ملاءمة النموذج، راجع المقالات التالية:
افتراضات الانحدار الخطي المتعددة
يقدم الانحدار الخطي المتعدد أربعة افتراضات رئيسية حول البيانات:
1. العلاقة الخطية: توجد علاقة خطية بين المتغير المستقل x والمتغير التابع y.
2. الاستقلال: البقايا مستقلة. وعلى وجه الخصوص، لا يوجد ارتباط بين المخلفات المتتالية في بيانات السلاسل الزمنية.
3. المثلية: البقايا لها تباين ثابت عند كل مستوى من x.
4. الحالة الطبيعية: يتم توزيع بقايا النموذج بشكل طبيعي.
وللحصول على شرح كامل لكيفية اختبار هذه الفرضيات راجع هذا المقال .
الانحدار الخطي المتعدد باستخدام البرمجيات
توفر البرامج التعليمية التالية أمثلة خطوة بخطوة حول كيفية إجراء الانحدار الخطي المتعدد باستخدام برامج إحصائية مختلفة:
كيفية إجراء الانحدار الخطي المتعدد في R
كيفية إجراء الانحدار الخطي المتعدد في بايثون
كيفية تنفيذ الانحدار الخطي المتعدد في إكسيل
كيفية إجراء الانحدار الخطي المتعدد في SPSS
كيفية إجراء الانحدار الخطي المتعدد في ستاتا
كيفية إجراء الانحدار الخطي في جداول بيانات Google