आर में मानकीकृत प्रतिगमन गुणांक की गणना कैसे करें


आमतौर पर, जब हम एकाधिक रैखिक प्रतिगमन करते हैं, तो मॉडल आउटपुट में परिणामी प्रतिगमन गुणांक मानकीकृत नहीं होते हैं, जिसका अर्थ है कि वे सर्वोत्तम-फिट लाइन खोजने के लिए कच्चे डेटा का उपयोग करते हैं।

 model <- lm(price ~ age + sqfeet, data=df)

हालाँकि, प्रत्येक भविष्यवक्ता चर और प्रतिक्रिया चर को मानकीकृत करना संभव है (प्रत्येक चर के औसत मूल्य को मूल मूल्यों से घटाकर और फिर इसे चर के मानक विचलन द्वारा विभाजित करके) और फिर एक प्रतिगमन चलाएं, जिसके परिणामस्वरूप मानकीकृत प्रतिगमन गुणांक

आर में मानकीकृत प्रतिगमन गुणांक की गणना करने का सबसे सरल तरीका मॉडल में प्रत्येक चर को मानकीकृत करने के लिए स्केल() फ़ंक्शन का उपयोग करना है:

 model <- lm(scale(price) ~ scale(age) + scale(sqfeet), data=df)

निम्नलिखित उदाहरण दिखाता है कि व्यवहार में मानकीकृत प्रतिगमन गुणांक की गणना कैसे करें।

उदाहरण: आर में मानकीकृत प्रतिगमन गुणांक की गणना कैसे करें

मान लीजिए कि हमारे पास निम्नलिखित डेटासेट है जिसमें 12 घरों की उम्र, वर्ग फुटेज और बिक्री मूल्य की जानकारी है:

 #create data frame
df <- data. frame (age=c(4, 7, 10, 15, 16, 18, 24, 28, 30, 35, 40, 44),
                 sqfeet=c(2600, 2800, 1700, 1300, 1500, 1800,
                          1200, 2200, 1800, 1900, 2100, 1300),
                 price=c(280000, 340000, 195000, 180000, 150000, 200000,
                         180000, 240000, 200000, 180000, 260000, 140000))

#view data frame
df

   age square feet price
1 4 2600 280000
2 7 2800 340000
3 10 1700 195000
4 15 1300 180000
5 16 1500 150000
6 18 1800 200000
7 24 1200 180000
8 28 2200 240000
9 30 1800 200000
10 35 1900 180000
11 40 2100 260000
12 44 1300 140000

मान लीजिए कि हम भविष्यवक्ता चर के रूप में आयु और वर्ग फुटेज का उपयोग करके और प्रतिक्रिया चर के रूप में कीमत का उपयोग करके एक बहु रेखीय प्रतिगमन करते हैं:

 #fit regression model
model <- lm(price ~ age + sqfeet, data=df)

#view model summary
summary(model)

Call:
lm(formula = price ~ age + sqfeet, data = df)

Residuals:
   Min 1Q Median 3Q Max 
-32038 -10526 -6139 21641 34060 

Coefficients:
            Estimate Std. Error t value Pr(>|t|)    
(Intercept) 34736.54 37184.32 0.934 0.374599    
age -409.83 612.46 -0.669 0.520187    
sqfeet 100.87 15.75 6.405 0.000125 ***
---
Significant. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1

Residual standard error: 24690 on 9 degrees of freedom
Multiple R-squared: 0.8508, Adjusted R-squared: 0.8176 
F-statistic: 25.65 on 2 and 9 DF, p-value: 0.0001916

मॉडल परिणामों से, हम अमानकीकृत प्रतिगमन गुणांक देख सकते हैं:

  • अवरोधन: 34736.54
  • आयु: -409.83
  • वर्ग फुट: 100.87

पहली नज़र में, ऐसा प्रतीत होता है कि उम्र का अचल संपत्ति की कीमत पर बहुत अधिक प्रभाव पड़ता है क्योंकि प्रतिगमन तालिका में इसका गुणांक -409.833 है, जबकि वर्ग फुटेज भविष्यवक्ता चर के लिए केवल 100.866 है।

हालाँकि, मानक त्रुटि वर्ग फुटेज की तुलना में उम्र के लिए बहुत बड़ी है, यही कारण है कि संबंधित पी-मान वास्तव में उम्र के लिए बड़ा है (पी = 0.520) और वर्ग फुटेज वर्गों के लिए छोटा है (पी = 0.000)।

प्रतिगमन गुणांक में अत्यधिक अंतर का कारण दो चर के पैमाने में अत्यधिक अंतर है:

  • आयु सीमा का मान 4 से 44 वर्ष तक है।
  • वर्ग फ़ुटेज का मान 1,200 से 2,800 तक होता है।

मान लीजिए कि हम इसके बजाय कच्चे डेटा को सामान्यीकृत करते हैं और एक नया प्रतिगमन मॉडल फिट करते हैं:

 #standardize each variable and fit regression model
model_std <- lm(scale(price) ~ scale(age) + scale(sqfeet), data=df)

#turn off scientific notation
options(scipen= 999 )

#view model summary
summary(model_std)

Call:
lm(formula = scale(price) ~ scale(age) + scale(sqfeet), data = df)

Residuals:
    Min 1Q Median 3Q Max 
-0.5541 -0.1820 -0.1062 0.3743 0.5891 

Coefficients:
                            Estimate Std. Error t value Pr(>|t|)
(Intercept) -0.0000000000000002253 0.1232881457926768426 0.000 1.000000
scale(age) -0.0924421263946849786 0.1381464029075653854 -0.669 0.520187
scale(sqfeet) 0.8848591938302141635 0.1381464029075653577 6.405 0.000125
                 
(Intercept)      
scale(age)       
scale(sqfeet)***
---
Significant. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1

Residual standard error: 0.4271 on 9 degrees of freedom
Multiple R-squared: 0.8508, Adjusted R-squared: 0.8176 
F-statistic: 25.65 on 2 and 9 DF, p-value: 0.0001916

इस तालिका में प्रतिगमन गुणांक मानकीकृत हैं, जिसका अर्थ है कि उन्होंने इस प्रतिगमन मॉडल को फिट करने के लिए मानकीकृत डेटा का उपयोग किया है।

तालिका में गुणांकों की व्याख्या करने का तरीका इस प्रकार है:

  • आयु में एक मानक विचलन वृद्धि घर की कीमत में 0.092 मानक विचलन कमी के साथ जुड़ी हुई है, यह मानते हुए कि वर्ग फुटेज स्थिर रहता है।
  • वर्ग फ़ुटेज में एक मानक विचलन वृद्धि घर की कीमत में 0.885 मानक विचलन वृद्धि के साथ जुड़ी हुई है, यह मानते हुए कि उम्र स्थिर रहती है।

अब हम देख सकते हैं कि वर्ग फुटेज का घर की कीमतों पर उम्र की तुलना में कहीं अधिक प्रभाव पड़ता है।

ध्यान दें : प्रत्येक भविष्यवक्ता चर के लिए पी-मान बिल्कुल पिछले प्रतिगमन मॉडल के समान हैं।

यह तय करते समय कि किस अंतिम मॉडल का उपयोग किया जाए, अब हम जानते हैं कि किसी घर की कीमत का अनुमान लगाने में उसकी उम्र की तुलना में वर्ग फुटेज कहीं अधिक महत्वपूर्ण है।

अतिरिक्त संसाधन

निम्नलिखित ट्यूटोरियल प्रतिगमन मॉडल के बारे में अतिरिक्त जानकारी प्रदान करते हैं:

प्रतिगमन तालिका को कैसे पढ़ें और व्याख्या करें
प्रतिगमन गुणांक की व्याख्या कैसे करें
रैखिक प्रतिगमन में पी मानों की व्याख्या कैसे करें

एक टिप्पणी जोड़ने

आपका ईमेल पता प्रकाशित नहीं किया जाएगा. आवश्यक फ़ील्ड चिह्नित हैं *