प्रेस आँकड़ा क्या है?


आंकड़ों में, हम दो कारणों से प्रतिगमन मॉडल फिट करते हैं:

(1) एक या अधिक व्याख्यात्मक चर और एक प्रतिक्रिया चर के बीच संबंध स्पष्ट करें

(2) एक या अधिक व्याख्यात्मक चर के मूल्यों के आधार पर प्रतिक्रिया चर के मूल्यों की भविष्यवाणी करें

जब हमारा लक्ष्य (2) एक प्रतिक्रिया चर के मूल्यों की भविष्यवाणी करना है, तो हम यह सुनिश्चित करना चाहते हैं कि हम ऐसा करने के लिए सर्वोत्तम संभव प्रतिगमन मॉडल का उपयोग कर रहे हैं।

एक मीट्रिक जिसका उपयोग हम प्रतिगमन मॉडल को खोजने के लिए कर सकते हैं जो नए डेटा पर सबसे अच्छी भविष्यवाणी करेगा वह प्रेस आँकड़ा है, जिसका अर्थ है ” वर्गों का अनुमानित अवशिष्ट योग ।”

इसकी गणना इस प्रकार की जाती है:

प्रेस = Σ(ई आई / (1-एच ii )) 2

सोना:

  • e i : i वां अवशेष।
  • h ii : मॉडल के फिट पर ith अवलोकन के प्रभाव (जिसे “लीवरेज” भी कहा जाता है) का एक माप।

एकाधिक प्रतिगमन मॉडल को देखते हुए, सबसे कम दबाव वाले मॉडल को उस मॉडल के रूप में चुना जाना चाहिए जो नए डेटा सेट पर सबसे अच्छा प्रदर्शन करेगा।

निम्नलिखित उदाहरण दिखाता है कि आर में तीन अलग-अलग रैखिक प्रतिगमन मॉडल के लिए प्रेस आंकड़े की गणना कैसे करें।

उदाहरण: प्रेस सांख्यिकी की गणना

मान लीजिए कि हमारे पास तीन व्याख्यात्मक चर, x1 , x2 और x3 , और एक प्रतिक्रिया चर y के साथ एक डेटा सेट है:

 data <- data.frame (x1 = c(2, 3, 3, 4, 4, 6, 8, 9, 9, 9),
                   x2 = c(2, 2, 3, 3, 2, 3, 5, 6, 6, 7),
                   x3 = c(12, 14, 14, 13, 8, 8, 9, 14, 11, 7),
                    y = c(23, 24, 15, 9, 14, 17, 22, 26, 34, 35))

निम्नलिखित कोड दिखाता है कि lm() फ़ंक्शन का उपयोग करके इस डेटासेट में तीन अलग-अलग प्रतिगमन मॉडल कैसे फिट करें:

 model1 <- lm(y~x1, data=data)

model2 <- lm(y~x1+x2, data=data)

model3 <- lm(y~x2+x3, data=data)

निम्नलिखित कोड दिखाता है कि प्रत्येक मॉडल के लिए प्रेस सांख्यिकी की गणना कैसे करें।

 #create custom function to calculate the PRESS statistic
PRESS <- function (model) {
    i <- residuals (model)/(1 - lm. influence (model)$ hat )
    sum(i^2)
}

#calculate PRESS for model 1
PRESS(model1)

[1] 590.2197

#calculate PRESS for model 2
PRESS(model2)

[1] 519.6435

#calculate PRESS for model 3
PRESS(model3)

[1] 537.7503

यह पता चला है कि सबसे कम प्रेस आँकड़ा वाला मॉडल 519.6435 के प्रेस आँकड़ा वाला मॉडल 2 है। इस प्रकार, हम इस मॉडल को नए डेटा सेट पर भविष्यवाणियां करने के लिए सबसे उपयुक्त के रूप में चुनेंगे।

अतिरिक्त संसाधन

सरल रेखीय प्रतिगमन का परिचय
एक मितव्ययी मॉडल क्या है?
एक अच्छा आर-वर्ग मान क्या है?

एक टिप्पणी जोड़ने

आपका ईमेल पता प्रकाशित नहीं किया जाएगा. आवश्यक फ़ील्ड चिह्नित हैं *