मॉडल चयन के लिए r में regsubsets() का उपयोग कैसे करें
आप सबसे अच्छा प्रतिगमन मॉडल तैयार करने वाले भविष्यवक्ता चर के सबसेट को खोजने के लिए आर में लीप्स पैकेज से regsubsets() फ़ंक्शन का उपयोग कर सकते हैं।
निम्नलिखित उदाहरण दिखाता है कि व्यवहार में इस फ़ंक्शन का उपयोग कैसे करें।
उदाहरण: आर में मॉडल चयन के लिए regsubsets() का उपयोग करना
इस उदाहरण के लिए, हम आर में निर्मित एमटीकार्स डेटासेट का उपयोग करेंगे, जिसमें 32 अलग-अलग कारों के लिए 11 अलग-अलग विशेषताओं पर माप शामिल हैं।
#view first six rows of mtcars dataset
head(mtcars)
mpg cyl disp hp drat wt qsec vs am gear carb
Mazda RX4 21.0 6 160 110 3.90 2.620 16.46 0 1 4 4
Mazda RX4 Wag 21.0 6 160 110 3.90 2.875 17.02 0 1 4 4
Datsun 710 22.8 4 108 93 3.85 2.320 18.61 1 1 4 1
Hornet 4 Drive 21.4 6 258 110 3.08 3.215 19.44 1 0 3 1
Hornet Sportabout 18.7 8 360 175 3.15 3.440 17.02 0 0 3 2
Valiant 18.1 6 225 105 2.76 3,460 20.22 1 0 3 1
मान लीजिए कि हम एचपी को प्रतिक्रिया चर और निम्नलिखित संभावित भविष्यवक्ता चर के रूप में उपयोग करके एक प्रतिगमन मॉडल फिट करना चाहते हैं:
- एमपीजी
- वज़न
- मल
- क्यूसेक
सर्वोत्तम प्रतिगमन मॉडल खोजने के लिए विस्तृत खोज करने के लिए हम लीप्स पैकेज से regsubsets() फ़ंक्शन का उपयोग कर सकते हैं:
library (leaps)
#find best regression model
bestSubsets <- regsubsets(hp ~ mpg + wt + drat + qsec, data=mtcars)
#view results
summary(bestSubsets)
Subset selection object
Call: regsubsets.formula(hp ~ mpg + wt + drat + qsec, data = mtcars)
4 Variables (and intercept)
Forced in Forced out
mpg FALSE FALSE
wt FALSE FALSE
drat FALSE FALSE
qsec FALSE FALSE
1 subsets of each size up to 4
Selection Algorithm: exhaustive
mpg wt drat qsec
1 ( 1 ) "*" " " " " " "
2 (1) " " "*" " " "*"
3 ( 1 ) “*” “*” “ “ “*”
4 ( 1 ) “*” “*” “*” “*”
परिणाम के निचले भाग में तारे ( * ) दर्शाते हैं कि कौन से भविष्यवक्ता चर अलग-अलग संख्या में भविष्यवक्ता चर के साथ प्रत्येक संभावित मॉडल के लिए सर्वोत्तम प्रतिगमन मॉडल से संबंधित हैं।
यहां परिणाम की व्याख्या करने का तरीका बताया गया है:
एकल भविष्यवक्ता चर वाले मॉडल के लिए, भविष्यवक्ता चर के रूप में एमपीजी का उपयोग करके सर्वोत्तम प्रतिगमन मॉडल तैयार किया जाता है।
दो भविष्यवक्ता चर वाले मॉडल के लिए, भविष्यवक्ता चर के रूप में wt और qsec का उपयोग करके सर्वोत्तम प्रतिगमन मॉडल तैयार किया जाता है।
तीन भविष्यवक्ता चर वाले मॉडल के लिए, भविष्यवक्ता चर के रूप में mpg , wt और qsec का उपयोग करके सर्वोत्तम प्रतिगमन मॉडल तैयार किया जाता है।
चार भविष्यवक्ता चर वाले मॉडल के लिए, भविष्यवक्ता चर के रूप में mpg , wt , drat और qsec का उपयोग करके सर्वोत्तम प्रतिगमन मॉडल तैयार किया जाता है।
ध्यान दें कि आप प्रत्येक मॉडल के लिए निम्नलिखित मीट्रिक भी निकाल सकते हैं:
- rsq : प्रत्येक मॉडल के लिए r वर्ग मान
- आरएसएस : प्रत्येक मॉडल के लिए वर्गों का अवशिष्ट योग
- adjr2 : प्रत्येक मॉडल के लिए समायोजित r-वर्ग मान
- सीपी : प्रत्येक मॉडल के लिए मैलोज़ का सीपी
- bic : प्रत्येक मॉडल के लिए BIC मान
उदाहरण के लिए, हम चार सर्वश्रेष्ठ मॉडलों में से प्रत्येक के लिए फिट किए गए आर-वर्ग मान को निकालने के लिए निम्नलिखित सिंटैक्स का उपयोग कर सकते हैं:
#view adjusted R-squared value of each model
summary(bestSubsets)$adjr2
[1] 0.5891853 0.7828169 0.7858829 0.7787005
परिणाम से हम देख सकते हैं:
- भविष्यवक्ता चर के रूप में mpg वाले मॉडल के लिए समायोजित आर-वर्ग मान 0.589 है।
- भविष्यवक्ता चर के रूप में wt और qsec वाले मॉडल के लिए समायोजित R-वर्ग मान 0.783 है।
- भविष्यवक्ता चर के रूप में mp g , wt और qsec वाले मॉडल के लिए समायोजित R-वर्ग मान 0.786 है।
- भविष्यवक्ता चर के रूप में mpg , wt , drat और qsec वाले मॉडल के लिए समायोजित R-वर्ग मान 0.779 है।
ये मान हमें इस बात का अंदाजा देते हैं कि मॉडल में भविष्यवक्ता चर की संख्या के आधार पर समायोजित, भविष्यवक्ता चर के सेट ने प्रतिक्रिया चर के मूल्य की कितनी अच्छी तरह भविष्यवाणी की है।
अतिरिक्त संसाधन
निम्नलिखित ट्यूटोरियल बताते हैं कि आर में अन्य सामान्य कार्य कैसे करें:
आर में मल्टीपल लीनियर रिग्रेशन कैसे करें
आर में टुकड़ेवार प्रतिगमन कैसे करें
आर में स्प्लाइन रिग्रेशन कैसे करें