كيفية تفسير مخرجات الانحدار في r
لملاءمة نموذج الانحدار الخطي في R، يمكننا استخدام الأمر lm() .
لعرض مخرجات نموذج الانحدار، يمكننا بعد ذلك استخدام الأمر Summary() .
يشرح هذا البرنامج التعليمي كيفية تفسير كل قيمة لمخرجات الانحدار في R.
مثال: تفسير مخرجات الانحدار في R
يوضح التعليمة البرمجية التالية كيفية ملاءمة نموذج الانحدار الخطي المتعدد مع مجموعة بيانات mtcars المدمجة باستخدام hp و drat و wt كمتغيرات تنبؤية و mpg كمتغير الاستجابة:
#fit regression model using hp, drat, and wt as predictors model <- lm(mpg ~ hp + drat + wt, data = mtcars) #view model summary summary(model) Call: lm(formula = mpg ~ hp + drat + wt, data = mtcars) Residuals: Min 1Q Median 3Q Max -3.3598 -1.8374 -0.5099 0.9681 5.7078 Coefficients: Estimate Std. Error t value Pr(>|t|) (Intercept) 29.394934 6.156303 4.775 5.13e-05 *** hp -0.032230 0.008925 -3.611 0.001178 ** drat 1.615049 1.226983 1.316 0.198755 wt -3.227954 0.796398 -4.053 0.000364 *** --- Significant. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1 Residual standard error: 2.561 on 28 degrees of freedom Multiple R-squared: 0.8369, Adjusted R-squared: 0.8194 F-statistic: 47.88 on 3 and 28 DF, p-value: 3.768e-11
فيما يلي كيفية تفسير كل قيمة في الإخراج:
يتصل
Call: lm(formula = mpg ~ hp + drat + wt, data = mtcars)
يذكرنا هذا القسم بالصيغة التي استخدمناها في نموذج الانحدار الخاص بنا. يمكننا أن نرى أننا استخدمنا mpg كمتغير الاستجابة و hp و drat و wt كمتغيرات متوقعة. جاء كل متغير من مجموعة البيانات المسماة mtcars .
بقايا
Residuals: Min 1Q Median 3Q Max -3.3598 -1.8374 -0.5099 0.9681 5.7078
يعرض هذا القسم ملخصًا لتوزيع البقايا من نموذج الانحدار. تذكر أن المتبقي هو الفرق بين القيمة المرصودة والقيمة المتوقعة لنموذج الانحدار.
وكان الحد الأدنى المتبقي -3.3598 ، وكان المتوسط المتبقي -0.5099 ، وكان الحد الأقصى المتبقي 5.7078 .
المعاملات
Coefficients: Estimate Std. Error t value Pr(>|t|) (Intercept) 29.394934 6.156303 4.775 5.13e-05 *** hp -0.032230 0.008925 -3.611 0.001178 ** drat 1.615049 1.226983 1.316 0.198755 wt -3.227954 0.796398 -4.053 0.000364 *** --- Significant. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
يعرض هذا القسم المعاملات المقدرة لنموذج الانحدار. يمكننا استخدام هذه المعاملات لتشكيل معادلة الانحدار المقدرة التالية:
ميلا في الغالون = 29.39 – 0.03 * حصان + 1.62 * قوة – 3.23 * الوزن
لكل متغير توقع، نتلقى القيم التالية:
التقدير: المعامل المقدر. يخبرنا هذا بمتوسط الزيادة في متغير الاستجابة المرتبط بزيادة وحدة واحدة في متغير التوقع، على افتراض أن جميع متغيرات التوقع الأخرى تظل ثابتة.
معيار. خطأ : هذا هو الخطأ المعياري للمعامل. وهذا مقياس لعدم اليقين في تقديرنا للمعامل.
قيمة t: هذه هي إحصائية t لمتغير التوقع، ويتم حسابها كـ (تقدير) / (خطأ قياسي).
Pr(>|t|): هذه هي القيمة p التي تتوافق مع إحصائية t. إذا كانت هذه القيمة أقل من مستوى ألفا معين (على سبيل المثال 0.05)، يقال أن المتغير التنبؤي ذو دلالة إحصائية.
إذا استخدمنا مستوى ألفا قدره α = 0.05 لتحديد المتنبئين الذين كانوا مهمين في نموذج الانحدار هذا، فسنقول أن hp و wt هما منبئين مهمين إحصائيًا بينما drat ليس كذلك.
تقييم مدى كفاية النموذج
Residual standard error: 2.561 on 28 degrees of freedom Multiple R-squared: 0.8369, Adjusted R-squared: 0.8194 F-statistic: 47.88 on 3 and 28 DF, p-value: 3.768e-11
يعرض هذا القسم الأخير أرقامًا مختلفة تساعدنا في تقييم مدى ملاءمة نموذج الانحدار لمجموعة البيانات الخاصة بنا.
الخطأ المعياري المتبقي: يخبرنا بمتوسط المسافة بين القيم المرصودة وخط الانحدار. كلما كانت القيمة أصغر، كانت قدرة نموذج الانحدار على ملاءمة البيانات أفضل.
يتم حساب درجات الحرية كـ nk-1 حيث n = إجمالي عدد الملاحظات و k = عدد المتنبئين. في هذا المثال، تحتوي mtcars على 32 ملاحظة واستخدمنا 3 تنبؤات في نموذج الانحدار، وبالتالي فإن درجات الحرية هي 32 – 3 – 1 = 28.
مربع R المتعدد: ويسمى هذا بمعامل التحديد. إنه يخبرنا عن مقدار التباين في متغير الاستجابة الذي يمكن تفسيره بواسطة متغيرات التوقع.
تتراوح هذه القيمة من 0 إلى 1. وكلما اقتربت من 1، زادت قدرة متغيرات التوقع على التنبؤ بقيمة متغير الاستجابة.
R-squared المعدل: هذه نسخة معدلة من R-squared تم تعديلها بناءً على عدد المتنبئين في النموذج. وهو دائمًا أقل من R تربيع.
يمكن أن يكون R-squared المعدل مفيدًا لمقارنة ملاءمة نماذج الانحدار المختلفة التي تستخدم أعدادًا مختلفة من متغيرات التوقع.
F-statistic: يشير إلى ما إذا كان نموذج الانحدار يوفر ملاءمة أفضل للبيانات من النموذج الذي لا يحتوي على متغيرات مستقلة. في الأساس، فهو يختبر ما إذا كان نموذج الانحدار ككل مفيدًا.
القيمة p: هذه هي القيمة p التي تتوافق مع إحصائية F. إذا كانت هذه القيمة أقل من مستوى معين من الأهمية (على سبيل المثال 0.05)، فإن نموذج الانحدار يناسب البيانات بشكل أفضل من النموذج الذي لا يحتوي على تنبؤات.
عند بناء نماذج الانحدار، نأمل أن تكون هذه القيمة الاحتمالية أقل من مستوى معين من الأهمية، لأنها تشير إلى أن المتغيرات المتنبئة مفيدة بالفعل في التنبؤ بقيمة متغير الاستجابة.
مصادر إضافية
كيفية إجراء الانحدار الخطي البسيط في R
كيفية إجراء الانحدار الخطي المتعدد في R
ما هي قيمة R-squared الجيدة؟