आर में एआईसी की गणना कैसे करें (उदाहरण सहित)
अकाइक सूचना मानदंड (एआईसी) एक मीट्रिक है जिसका उपयोग कई प्रतिगमन मॉडल के फिट की तुलना करने के लिए किया जाता है।
इसकी गणना इस प्रकार की जाती है:
एआईसी = 2K – 2 एलएन (एल)
सोना:
- K: मॉडल मापदंडों की संख्या। K का डिफ़ॉल्ट मान 2 है, इसलिए केवल एक भविष्यवक्ता चर वाले मॉडल का K मान 2+1 = 3 होगा।
- एलएन (एल) : मॉडल की लॉग-संभावना। अधिकांश सांख्यिकीय सॉफ़्टवेयर स्वचालित रूप से आपके लिए इस मान की गणना कर सकते हैं।
एआईसी को उस मॉडल को खोजने के लिए डिज़ाइन किया गया है जो डेटा में सबसे अधिक भिन्नता की व्याख्या करता है, जबकि अत्यधिक संख्या में मापदंडों का उपयोग करने वाले मॉडल को दंडित करता है।
एक बार जब आप एकाधिक प्रतिगमन मॉडल फिट कर लेते हैं, तो आप प्रत्येक मॉडल के एआईसी मूल्य की तुलना कर सकते हैं। AIC जितनी कम होगी, मॉडल उतना ही उपयुक्त होगा।
आर में एकाधिक प्रतिगमन मॉडल के एआईसी की गणना करने के लिए, हम AICcmodavg पैकेज से aictab() फ़ंक्शन का उपयोग कर सकते हैं।
निम्नलिखित उदाहरण दिखाता है कि आर में विभिन्न प्रतिगमन मॉडल के लिए एआईसी की गणना और व्याख्या करने के लिए इस फ़ंक्शन का उपयोग कैसे करें।
उदाहरण: आर में एआईसी की गणना और व्याख्या करें
मान लीजिए कि हम एमटीकार्स डेटासेट से वेरिएबल्स का उपयोग करके तीन अलग-अलग एकाधिक रैखिक प्रतिगमन मॉडल फिट करना चाहते हैं।
यहां वे भविष्यवक्ता चर हैं जिनका उपयोग हम प्रत्येक मॉडल में करेंगे:
- मॉडल 1 में भविष्यवक्ता चर: डिस्प, एचपी, डब्ल्यूटी, क्यूसेक
- मॉडल 2 में भविष्यवक्ता चर: डिस्प, क्यूसेक
- मॉडल 3 में भविष्यवक्ता चर: disp, wt
निम्नलिखित कोड दिखाता है कि इनमें से प्रत्येक प्रतिगमन मॉडल को कैसे फिट किया जाए:
#fit three models
model1 <- lm(mpg ~ disp + hp + wt + qsec, data = mtcars)
model2 <- lm(mpg ~ disp + qsec, data = mtcars)
model3 <- lm(mpg ~ disp + wt, data = mtcars)
इसके बाद, हम मॉडलों को एक सूची में रखेंगे और प्रत्येक मॉडल के AIC की गणना करने के लिए aictab() फ़ंक्शन का उपयोग करेंगे:
library (AICcmodavg) #define list of models models <- list(model1, model2, model3) #specify model names mod.names <- c('disp.hp.wt.qsec', 'disp.qsec', 'disp.wt') #calculate AIC of each model aictab(cand.set = models, modnames = mod.names) Model selection based on AICc: K AICc Delta_AICc AICcWt Cum.Wt LL disp.hp.wt.qsec 6 162.43 0.00 0.83 0.83 -73.53 available wt 4 165.65 3.22 0.17 1.00 -78.08 disp.qsec 4 173.32 10.89 0.00 1.00 -81.92
यहां परिणाम की व्याख्या करने का तरीका बताया गया है:
- K: मॉडल में मापदंडों की संख्या।
- AICc: मॉडल का AIC मान। लोअरकेस “सी” इंगित करता है कि एआईसी की गणना छोटे नमूनों के लिए सही किए गए एआईसी से की गई थी।
- Delta_AICc: सबसे अच्छे मॉडल के AIC और तुलना किए गए मौजूदा मॉडल के AIC के बीच का अंतर।
- AICcWt: मॉडल में पाई जा सकने वाली कुल पूर्वानुमानित शक्ति का अनुपात।
- Cum.Wt : AIC भार का संचयी योग।
- एलएल: मॉडल की लॉग-संभावना। यह हमें बताता है कि हमारे द्वारा उपयोग किए गए डेटा को देखते हुए मॉडल कितना संभावित है।
सबसे कम AIC मान वाला मॉडल हमेशा पहले सूचीबद्ध किया जाता है। परिणाम से हम देख सकते हैं कि निम्नलिखित मॉडल का AIC मान सबसे कम है और इसलिए यह सबसे उपयुक्त मॉडल है:
एमपीजी = β 0 + β 1 (डिस्प) + β 2 (एचपी) + β 3 (वजन) + β 4 (क्यूसेकंड)
एक बार जब हम इस मॉडल को सर्वश्रेष्ठ के रूप में पहचान लेते हैं, तो हम मॉडल फिटिंग के साथ आगे बढ़ सकते हैं और पूर्वानुमानित चर के सेट और प्रतिक्रिया चर के बीच सटीक संबंध निर्धारित करने के लिए आर-वर्ग मान और बीटा गुणांक सहित परिणामों का विश्लेषण कर सकते हैं।
अतिरिक्त संसाधन
आर में सरल रैखिक प्रतिगमन कैसे करें
आर में मल्टीपल लीनियर रिग्रेशन कैसे करें
आर में समायोजित आर-वर्ग की गणना कैसे करें
आर में मैलोज़ सीपी की गणना कैसे करें