आर में मानकीकृत अवशेषों की गणना कैसे करें


अवशिष्ट एक प्रतिगमन मॉडल में देखे गए मूल्य और अनुमानित मूल्य के बीच का अंतर है।

इसकी गणना इस प्रकार की जाती है:

अवशिष्ट = प्रेक्षित मूल्य – अनुमानित मूल्य

यदि हम देखे गए मानों को प्लॉट करते हैं और फिट प्रतिगमन रेखा को सुपरइम्पोज़ करते हैं, तो प्रत्येक अवलोकन के लिए अवशेष अवलोकन और प्रतिगमन रेखा के बीच ऊर्ध्वाधर दूरी होगी:

सांख्यिकी में अवशिष्ट का उदाहरण

एक प्रकार का अवशिष्ट जिसे हम अक्सर प्रतिगमन मॉडल में आउटलेर्स की पहचान करने के लिए उपयोग करते हैं , मानकीकृत अवशिष्ट कहा जाता है।

इसकी गणना इस प्रकार की जाती है:

आर आई = ई आई / एस(ई आई ) = आई / आरएसई√ 1-एच ii

सोना:

  • e i : i वां अवशेष
  • आरएसई: मॉडल की अवशिष्ट मानक त्रुटि
  • h ii : ith अवलोकन का उदय

व्यवहार में, हम अक्सर किसी भी मानकीकृत अवशिष्ट पर विचार करते हैं जिसका पूर्ण मूल्य 3 से अधिक है।

यह ट्यूटोरियल आर में मानकीकृत अवशेषों की गणना करने का चरण-दर-चरण उदाहरण प्रदान करता है।

चरण 1: डेटा दर्ज करें

सबसे पहले, हम R में काम करने के लिए एक छोटा डेटासेट बनाएंगे:

 #create data
data <- data.frame(x=c(8, 12, 12, 13, 14, 16, 17, 22, 24, 26, 29, 30),
                   y=c(41, 42, 39, 37, 35, 39, 45, 46, 39, 49, 55, 57))

#viewdata
data

    xy
1 8 41
2 12 42
3 12 39
4 13 37
5 14 35
6 16 39
7 17 45
8 22 46
9 24 39
10 26 49
11 29 55
12 30 57

चरण 2: प्रतिगमन मॉडल को फ़िट करें

इसके बाद, हम एक सरल रैखिक प्रतिगमन मॉडल को फिट करने के लिए lm() फ़ंक्शन का उपयोग करेंगे:

 #fit model
model <- lm(y ~ x, data=data)

#view model summary
summary(model) 

Call:
lm(formula = y ~ x, data = data)

Residuals:
    Min 1Q Median 3Q Max 
-8.7578 -2.5161 0.0292 3.3457 5.3268 

Coefficients:
            Estimate Std. Error t value Pr(>|t|)    
(Intercept) 29.6309 3.6189 8.188 9.6e-06 ***
x 0.7553 0.1821 4.148 0.00199 ** 
---
Significant. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1

Residual standard error: 4.442 on 10 degrees of freedom
Multiple R-squared: 0.6324, Adjusted R-squared: 0.5956 
F-statistic: 17.2 on 1 and 10 DF, p-value: 0.001988

चरण 3: मानकीकृत अवशेषों की गणना करें

इसके बाद, हम मॉडल के मानकीकृत अवशेषों की गणना करने के लिए अंतर्निहित फ़ंक्शन rstandard() का उपयोग करेंगे:

 #calculate the standardized residuals
standard_res <- rstandard(model)

#view the standardized residuals
standard_res

          1 2 3 4 5 6 
 1.40517322 0.81017562 0.07491009 -0.59323342 -1.24820530 -0.64248883 
          7 8 9 10 11 12 
 0.59610905 -0.05876884 -2.11711982 -0.06655600 0.91057211 1.26973888

यदि हम चाहें तो हम मानकीकृत अवशेषों को मूल डेटा फ़्रेम में जोड़ सकते हैं:

 #column bind standardized residuals back to original data frame
final_data <- cbind(data, standard_res)

#view data frame
    xy standard_res
1 8 41 1.40517322
2 12 42 0.81017562
3 12 39 0.07491009
4 13 37 -0.59323342
5 14 35 -1.24820530
6 16 39 -0.64248883
7 17 45 0.59610905
8 22 46 -0.05876884
9 24 39 -2.11711982
10 26 49 -0.06655600
11 29 55 0.91057211
12 30 57 1.26973888

फिर हम प्रत्येक अवलोकन को उसके मानकीकृत अवशिष्ट के आधार पर सबसे बड़े से छोटे तक क्रमबद्ध कर सकते हैं ताकि यह पता चल सके कि कौन से अवलोकन आउटलेर्स के सबसे करीब हैं:

 #sort standardized residuals descending
final_data[ order (-standard_res),]

    xy standard_res
1 8 41 1.40517322
12 30 57 1.26973888
11 29 55 0.91057211
2 12 42 0.81017562
7 17 45 0.59610905
3 12 39 0.07491009
8 22 46 -0.05876884
10 26 49 -0.06655600
4 13 37 -0.59323342
6 16 39 -0.64248883
5 14 35 -1.24820530
9 24 39 -2.11711982

परिणामों से, हम देख सकते हैं कि कोई भी मानकीकृत अवशेष 3 के निरपेक्ष मान से अधिक नहीं है। इस प्रकार, कोई भी अवलोकन आउटलेयर नहीं दिखता है।

चरण 4: मानकीकृत अवशेषों की कल्पना करें

अंत में, हम मानकीकृत अवशेषों के विरुद्ध भविष्यवक्ता चर के मूल्यों की कल्पना करने के लिए एक स्कैटरप्लॉट बना सकते हैं:

 #plot predictor variable vs. standardized residuals
plot(final_data$x, standard_res, ylab=' Standardized Residuals ', xlab=' x ') 

#add horizontal line at 0
abline(0, 0)

अतिरिक्त संसाधन

अवशेष क्या हैं?
मानकीकृत अवशेष क्या हैं?
एकाधिक रेखीय प्रतिगमन का परिचय

एक टिप्पणी जोड़ने

आपका ईमेल पता प्रकाशित नहीं किया जाएगा. आवश्यक फ़ील्ड चिह्नित हैं *