كيفية حساب معاملات الانحدار الموحدة في r
عادةً، عندما نقوم بإجراء انحدار خطي متعدد ، فإن معاملات الانحدار الناتجة في مخرجات النموذج ليست موحدة ، مما يعني أنها تستخدم البيانات الأولية للعثور على الخط الأكثر ملائمة.
model <- lm(price ~ age + sqfeet, data=df)
ومع ذلك، من الممكن توحيد كل متغير متنبئ ومتغير الاستجابة (عن طريق طرح القيمة المتوسطة لكل متغير من القيم الأصلية ثم قسمتها على الانحراف المعياري للمتغيرات) ثم إجراء الانحدار، مما يؤدي إلى معاملات الانحدار الموحدة .
إن أبسط طريقة لحساب معاملات الانحدار القياسية في R هي استخدام الدالةscale() لتوحيد كل متغير في النموذج:
model <- lm(scale(price) ~ scale(age) + scale(sqfeet), data=df)
يوضح المثال التالي كيفية حساب معاملات الانحدار الموحدة عمليًا.
مثال: كيفية حساب معاملات الانحدار الموحدة في R
لنفترض أن لدينا مجموعة البيانات التالية التي تحتوي على معلومات حول العمر والقدم المربع وسعر البيع لـ 12 منزلًا:
#create data frame df <- data. frame (age=c(4, 7, 10, 15, 16, 18, 24, 28, 30, 35, 40, 44), sqfeet=c(2600, 2800, 1700, 1300, 1500, 1800, 1200, 2200, 1800, 1900, 2100, 1300), price=c(280000, 340000, 195000, 180000, 150000, 200000, 180000, 240000, 200000, 180000, 260000, 140000)) #view data frame df age square feet price 1 4 2600 280000 2 7 2800 340000 3 10 1700 195000 4 15 1300 180000 5 16 1500 150000 6 18 1800 200000 7 24 1200 180000 8 28 2200 240000 9 30 1800 200000 10 35 1900 180000 11 40 2100 260000 12 44 1300 140000
لنفترض أننا قمنا بعد ذلك بإجراء انحدار خطي متعدد باستخدام العمر والقدم المربع كمتغيرات متوقعة والسعر كمتغير الاستجابة:
#fit regression model model <- lm(price ~ age + sqfeet, data=df) #view model summary summary(model) Call: lm(formula = price ~ age + sqfeet, data = df) Residuals: Min 1Q Median 3Q Max -32038 -10526 -6139 21641 34060 Coefficients: Estimate Std. Error t value Pr(>|t|) (Intercept) 34736.54 37184.32 0.934 0.374599 age -409.83 612.46 -0.669 0.520187 sqfeet 100.87 15.75 6.405 0.000125 *** --- Significant. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1 Residual standard error: 24690 on 9 degrees of freedom Multiple R-squared: 0.8508, Adjusted R-squared: 0.8176 F-statistic: 25.65 on 2 and 9 DF, p-value: 0.0001916
ومن نتائج النموذج يمكننا ملاحظة معاملات الانحدار غير المعيارية :
- الاعتراض: 34736.54
- العمر: -409.83
- قدم مربع: 100.87
للوهلة الأولى، يبدو أن العمر له تأثير أكبر بكثير على أسعار العقارات حيث أن معامله في جدول الانحدار هو -409.833 ، مقارنة بـ 100.866 فقط لمتغير التوقع بالقدم المربع.
ومع ذلك، فإن الخطأ المعياري أكبر بكثير بالنسبة للعمر منه بالنسبة للقدم المربع، ولهذا السبب تكون القيمة p المقابلة كبيرة بالفعل بالنسبة للعمر (ع = 0.520) وصغيرة بالنسبة لمربعات القدم المربع (ع = 0.000).
ويرجع سبب الاختلاف الشديد في معاملات الانحدار إلى الاختلاف الشديد في المقاييس للمتغيرين:
- تتراوح القيم للعمر من 4 إلى 44 سنة.
- تتراوح قيم اللقطات المربعة من 1200 إلى 2800.
لنفترض أننا بدلاً من ذلك قمنا بتطبيع البيانات الأولية وتناسب نموذج الانحدار الجديد:
#standardize each variable and fit regression model model_std <- lm(scale(price) ~ scale(age) + scale(sqfeet), data=df) #turn off scientific notation options(scipen= 999 ) #view model summary summary(model_std) Call: lm(formula = scale(price) ~ scale(age) + scale(sqfeet), data = df) Residuals: Min 1Q Median 3Q Max -0.5541 -0.1820 -0.1062 0.3743 0.5891 Coefficients: Estimate Std. Error t value Pr(>|t|) (Intercept) -0.0000000000000002253 0.1232881457926768426 0.000 1.000000 scale(age) -0.0924421263946849786 0.1381464029075653854 -0.669 0.520187 scale(sqfeet) 0.8848591938302141635 0.1381464029075653577 6.405 0.000125 (Intercept) scale(age) scale(sqfeet)*** --- Significant. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1 Residual standard error: 0.4271 on 9 degrees of freedom Multiple R-squared: 0.8508, Adjusted R-squared: 0.8176 F-statistic: 25.65 on 2 and 9 DF, p-value: 0.0001916
معاملات الانحدار في هذا الجدول موحدة ، مما يعني أنها استخدمت بيانات موحدة لتناسب نموذج الانحدار هذا.
وطريقة تفسير المعاملات في الجدول هي كما يلي:
- وترتبط زيادة انحراف معياري واحد في العمر بانخفاض قدره 0.092 انحراف معياري في سعر المنزل، على افتراض أن المساحة المربعة تظل ثابتة.
- وترتبط زيادة انحراف معياري واحد في القدم المربع بزيادة قدرها 0.885 انحراف معياري في سعر المنزل، على افتراض أن العمر يظل ثابتا.
يمكننا الآن أن نرى أن القدم المربعة لها تأثير أكبر بكثير على أسعار المنازل من تأثير العمر.
ملاحظة : القيم p لكل متغير متنبئ هي نفسها تمامًا تلك الموجودة في نموذج الانحدار السابق.
عند تحديد النموذج النهائي الذي سيتم استخدامه، نعلم الآن أن القدم المربعة أكثر أهمية في التنبؤ بسعر المنزل من عمره .
مصادر إضافية
توفر البرامج التعليمية التالية معلومات إضافية حول نماذج الانحدار:
كيفية قراءة وتفسير جدول الانحدار
كيفية تفسير معاملات الانحدار
كيفية تفسير القيم P في الانحدار الخطي