आर में मानकीकृत प्रतिगमन गुणांक की गणना कैसे करें
आमतौर पर, जब हम एकाधिक रैखिक प्रतिगमन करते हैं, तो मॉडल आउटपुट में परिणामी प्रतिगमन गुणांक मानकीकृत नहीं होते हैं, जिसका अर्थ है कि वे सर्वोत्तम-फिट लाइन खोजने के लिए कच्चे डेटा का उपयोग करते हैं।
model <- lm(price ~ age + sqfeet, data=df)
हालाँकि, प्रत्येक भविष्यवक्ता चर और प्रतिक्रिया चर को मानकीकृत करना संभव है (प्रत्येक चर के औसत मूल्य को मूल मूल्यों से घटाकर और फिर इसे चर के मानक विचलन द्वारा विभाजित करके) और फिर एक प्रतिगमन चलाएं, जिसके परिणामस्वरूप मानकीकृत प्रतिगमन गुणांक ।
आर में मानकीकृत प्रतिगमन गुणांक की गणना करने का सबसे सरल तरीका मॉडल में प्रत्येक चर को मानकीकृत करने के लिए स्केल() फ़ंक्शन का उपयोग करना है:
model <- lm(scale(price) ~ scale(age) + scale(sqfeet), data=df)
निम्नलिखित उदाहरण दिखाता है कि व्यवहार में मानकीकृत प्रतिगमन गुणांक की गणना कैसे करें।
उदाहरण: आर में मानकीकृत प्रतिगमन गुणांक की गणना कैसे करें
मान लीजिए कि हमारे पास निम्नलिखित डेटासेट है जिसमें 12 घरों की उम्र, वर्ग फुटेज और बिक्री मूल्य की जानकारी है:
#create data frame df <- data. frame (age=c(4, 7, 10, 15, 16, 18, 24, 28, 30, 35, 40, 44), sqfeet=c(2600, 2800, 1700, 1300, 1500, 1800, 1200, 2200, 1800, 1900, 2100, 1300), price=c(280000, 340000, 195000, 180000, 150000, 200000, 180000, 240000, 200000, 180000, 260000, 140000)) #view data frame df age square feet price 1 4 2600 280000 2 7 2800 340000 3 10 1700 195000 4 15 1300 180000 5 16 1500 150000 6 18 1800 200000 7 24 1200 180000 8 28 2200 240000 9 30 1800 200000 10 35 1900 180000 11 40 2100 260000 12 44 1300 140000
मान लीजिए कि हम भविष्यवक्ता चर के रूप में आयु और वर्ग फुटेज का उपयोग करके और प्रतिक्रिया चर के रूप में कीमत का उपयोग करके एक बहु रेखीय प्रतिगमन करते हैं:
#fit regression model model <- lm(price ~ age + sqfeet, data=df) #view model summary summary(model) Call: lm(formula = price ~ age + sqfeet, data = df) Residuals: Min 1Q Median 3Q Max -32038 -10526 -6139 21641 34060 Coefficients: Estimate Std. Error t value Pr(>|t|) (Intercept) 34736.54 37184.32 0.934 0.374599 age -409.83 612.46 -0.669 0.520187 sqfeet 100.87 15.75 6.405 0.000125 *** --- Significant. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1 Residual standard error: 24690 on 9 degrees of freedom Multiple R-squared: 0.8508, Adjusted R-squared: 0.8176 F-statistic: 25.65 on 2 and 9 DF, p-value: 0.0001916
मॉडल परिणामों से, हम अमानकीकृत प्रतिगमन गुणांक देख सकते हैं:
- अवरोधन: 34736.54
- आयु: -409.83
- वर्ग फुट: 100.87
पहली नज़र में, ऐसा प्रतीत होता है कि उम्र का अचल संपत्ति की कीमत पर बहुत अधिक प्रभाव पड़ता है क्योंकि प्रतिगमन तालिका में इसका गुणांक -409.833 है, जबकि वर्ग फुटेज भविष्यवक्ता चर के लिए केवल 100.866 है।
हालाँकि, मानक त्रुटि वर्ग फुटेज की तुलना में उम्र के लिए बहुत बड़ी है, यही कारण है कि संबंधित पी-मान वास्तव में उम्र के लिए बड़ा है (पी = 0.520) और वर्ग फुटेज वर्गों के लिए छोटा है (पी = 0.000)।
प्रतिगमन गुणांक में अत्यधिक अंतर का कारण दो चर के पैमाने में अत्यधिक अंतर है:
- आयु सीमा का मान 4 से 44 वर्ष तक है।
- वर्ग फ़ुटेज का मान 1,200 से 2,800 तक होता है।
मान लीजिए कि हम इसके बजाय कच्चे डेटा को सामान्यीकृत करते हैं और एक नया प्रतिगमन मॉडल फिट करते हैं:
#standardize each variable and fit regression model model_std <- lm(scale(price) ~ scale(age) + scale(sqfeet), data=df) #turn off scientific notation options(scipen= 999 ) #view model summary summary(model_std) Call: lm(formula = scale(price) ~ scale(age) + scale(sqfeet), data = df) Residuals: Min 1Q Median 3Q Max -0.5541 -0.1820 -0.1062 0.3743 0.5891 Coefficients: Estimate Std. Error t value Pr(>|t|) (Intercept) -0.0000000000000002253 0.1232881457926768426 0.000 1.000000 scale(age) -0.0924421263946849786 0.1381464029075653854 -0.669 0.520187 scale(sqfeet) 0.8848591938302141635 0.1381464029075653577 6.405 0.000125 (Intercept) scale(age) scale(sqfeet)*** --- Significant. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1 Residual standard error: 0.4271 on 9 degrees of freedom Multiple R-squared: 0.8508, Adjusted R-squared: 0.8176 F-statistic: 25.65 on 2 and 9 DF, p-value: 0.0001916
इस तालिका में प्रतिगमन गुणांक मानकीकृत हैं, जिसका अर्थ है कि उन्होंने इस प्रतिगमन मॉडल को फिट करने के लिए मानकीकृत डेटा का उपयोग किया है।
तालिका में गुणांकों की व्याख्या करने का तरीका इस प्रकार है:
- आयु में एक मानक विचलन वृद्धि घर की कीमत में 0.092 मानक विचलन कमी के साथ जुड़ी हुई है, यह मानते हुए कि वर्ग फुटेज स्थिर रहता है।
- वर्ग फ़ुटेज में एक मानक विचलन वृद्धि घर की कीमत में 0.885 मानक विचलन वृद्धि के साथ जुड़ी हुई है, यह मानते हुए कि उम्र स्थिर रहती है।
अब हम देख सकते हैं कि वर्ग फुटेज का घर की कीमतों पर उम्र की तुलना में कहीं अधिक प्रभाव पड़ता है।
ध्यान दें : प्रत्येक भविष्यवक्ता चर के लिए पी-मान बिल्कुल पिछले प्रतिगमन मॉडल के समान हैं।
यह तय करते समय कि किस अंतिम मॉडल का उपयोग किया जाए, अब हम जानते हैं कि किसी घर की कीमत का अनुमान लगाने में उसकी उम्र की तुलना में वर्ग फुटेज कहीं अधिक महत्वपूर्ण है।
अतिरिक्त संसाधन
निम्नलिखित ट्यूटोरियल प्रतिगमन मॉडल के बारे में अतिरिक्त जानकारी प्रदान करते हैं:
प्रतिगमन तालिका को कैसे पढ़ें और व्याख्या करें
प्रतिगमन गुणांक की व्याख्या कैसे करें
रैखिक प्रतिगमन में पी मानों की व्याख्या कैसे करें