كيفية حساب معاملات الانحدار الموحدة في r


عادةً، عندما نقوم بإجراء انحدار خطي متعدد ، فإن معاملات الانحدار الناتجة في مخرجات النموذج ليست موحدة ، مما يعني أنها تستخدم البيانات الأولية للعثور على الخط الأكثر ملائمة.

 model <- lm(price ~ age + sqfeet, data=df)

ومع ذلك، من الممكن توحيد كل متغير متنبئ ومتغير الاستجابة (عن طريق طرح القيمة المتوسطة لكل متغير من القيم الأصلية ثم قسمتها على الانحراف المعياري للمتغيرات) ثم إجراء الانحدار، مما يؤدي إلى معاملات الانحدار الموحدة .

إن أبسط طريقة لحساب معاملات الانحدار القياسية في R هي استخدام الدالةscale() لتوحيد كل متغير في النموذج:

 model <- lm(scale(price) ~ scale(age) + scale(sqfeet), data=df)

يوضح المثال التالي كيفية حساب معاملات الانحدار الموحدة عمليًا.

مثال: كيفية حساب معاملات الانحدار الموحدة في R

لنفترض أن لدينا مجموعة البيانات التالية التي تحتوي على معلومات حول العمر والقدم المربع وسعر البيع لـ 12 منزلًا:

 #create data frame
df <- data. frame (age=c(4, 7, 10, 15, 16, 18, 24, 28, 30, 35, 40, 44),
                 sqfeet=c(2600, 2800, 1700, 1300, 1500, 1800,
                          1200, 2200, 1800, 1900, 2100, 1300),
                 price=c(280000, 340000, 195000, 180000, 150000, 200000,
                         180000, 240000, 200000, 180000, 260000, 140000))

#view data frame
df

   age square feet price
1 4 2600 280000
2 7 2800 340000
3 10 1700 195000
4 15 1300 180000
5 16 1500 150000
6 18 1800 200000
7 24 1200 180000
8 28 2200 240000
9 30 1800 200000
10 35 1900 180000
11 40 2100 260000
12 44 1300 140000

لنفترض أننا قمنا بعد ذلك بإجراء انحدار خطي متعدد باستخدام العمر والقدم المربع كمتغيرات متوقعة والسعر كمتغير الاستجابة:

 #fit regression model
model <- lm(price ~ age + sqfeet, data=df)

#view model summary
summary(model)

Call:
lm(formula = price ~ age + sqfeet, data = df)

Residuals:
   Min 1Q Median 3Q Max 
-32038 -10526 -6139 21641 34060 

Coefficients:
            Estimate Std. Error t value Pr(>|t|)    
(Intercept) 34736.54 37184.32 0.934 0.374599    
age -409.83 612.46 -0.669 0.520187    
sqfeet 100.87 15.75 6.405 0.000125 ***
---
Significant. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1

Residual standard error: 24690 on 9 degrees of freedom
Multiple R-squared: 0.8508, Adjusted R-squared: 0.8176 
F-statistic: 25.65 on 2 and 9 DF, p-value: 0.0001916

ومن نتائج النموذج يمكننا ملاحظة معاملات الانحدار غير المعيارية :

  • الاعتراض: 34736.54
  • العمر: -409.83
  • قدم مربع: 100.87

للوهلة الأولى، يبدو أن العمر له تأثير أكبر بكثير على أسعار العقارات حيث أن معامله في جدول الانحدار هو -409.833 ، مقارنة بـ 100.866 فقط لمتغير التوقع بالقدم المربع.

ومع ذلك، فإن الخطأ المعياري أكبر بكثير بالنسبة للعمر منه بالنسبة للقدم المربع، ولهذا السبب تكون القيمة p المقابلة كبيرة بالفعل بالنسبة للعمر (ع = 0.520) وصغيرة بالنسبة لمربعات القدم المربع (ع = 0.000).

ويرجع سبب الاختلاف الشديد في معاملات الانحدار إلى الاختلاف الشديد في المقاييس للمتغيرين:

  • تتراوح القيم للعمر من 4 إلى 44 سنة.
  • تتراوح قيم اللقطات المربعة من 1200 إلى 2800.

لنفترض أننا بدلاً من ذلك قمنا بتطبيع البيانات الأولية وتناسب نموذج الانحدار الجديد:

 #standardize each variable and fit regression model
model_std <- lm(scale(price) ~ scale(age) + scale(sqfeet), data=df)

#turn off scientific notation
options(scipen= 999 )

#view model summary
summary(model_std)

Call:
lm(formula = scale(price) ~ scale(age) + scale(sqfeet), data = df)

Residuals:
    Min 1Q Median 3Q Max 
-0.5541 -0.1820 -0.1062 0.3743 0.5891 

Coefficients:
                            Estimate Std. Error t value Pr(>|t|)
(Intercept) -0.0000000000000002253 0.1232881457926768426 0.000 1.000000
scale(age) -0.0924421263946849786 0.1381464029075653854 -0.669 0.520187
scale(sqfeet) 0.8848591938302141635 0.1381464029075653577 6.405 0.000125
                 
(Intercept)      
scale(age)       
scale(sqfeet)***
---
Significant. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1

Residual standard error: 0.4271 on 9 degrees of freedom
Multiple R-squared: 0.8508, Adjusted R-squared: 0.8176 
F-statistic: 25.65 on 2 and 9 DF, p-value: 0.0001916

معاملات الانحدار في هذا الجدول موحدة ، مما يعني أنها استخدمت بيانات موحدة لتناسب نموذج الانحدار هذا.

وطريقة تفسير المعاملات في الجدول هي كما يلي:

  • وترتبط زيادة انحراف معياري واحد في العمر بانخفاض قدره 0.092 انحراف معياري في سعر المنزل، على افتراض أن المساحة المربعة تظل ثابتة.
  • وترتبط زيادة انحراف معياري واحد في القدم المربع بزيادة قدرها 0.885 انحراف معياري في سعر المنزل، على افتراض أن العمر يظل ثابتا.

يمكننا الآن أن نرى أن القدم المربعة لها تأثير أكبر بكثير على أسعار المنازل من تأثير العمر.

ملاحظة : القيم p لكل متغير متنبئ هي نفسها تمامًا تلك الموجودة في نموذج الانحدار السابق.

عند تحديد النموذج النهائي الذي سيتم استخدامه، نعلم الآن أن القدم المربعة أكثر أهمية في التنبؤ بسعر المنزل من عمره .

مصادر إضافية

توفر البرامج التعليمية التالية معلومات إضافية حول نماذج الانحدار:

كيفية قراءة وتفسير جدول الانحدار
كيفية تفسير معاملات الانحدار
كيفية تفسير القيم P في الانحدار الخطي

Add a Comment

ایمئیل یایینلانمایاجاق ایسته‎نیله‎ن بوشلوقلار خاللانمیشدیر *