पायथन में मानकीकृत अवशेषों की गणना कैसे करें


अवशिष्ट एक प्रतिगमन मॉडल में देखे गए मूल्य और अनुमानित मूल्य के बीच का अंतर है।

इसकी गणना इस प्रकार की जाती है:

अवशिष्ट = प्रेक्षित मूल्य – अनुमानित मूल्य

यदि हम देखे गए मानों को प्लॉट करते हैं और फिटेड रिग्रेशन लाइन को सुपरइम्पोज़ करते हैं, तो प्रत्येक अवलोकन के लिए अवशेष अवलोकन और रिग्रेशन लाइन के बीच ऊर्ध्वाधर दूरी होगी:

सांख्यिकी में अवशिष्ट का उदाहरण

एक प्रकार का अवशिष्ट जिसे हम अक्सर प्रतिगमन मॉडल में आउटलेर्स की पहचान करने के लिए उपयोग करते हैं , मानकीकृत अवशिष्ट कहा जाता है।

इसकी गणना इस प्रकार की जाती है:

आर आई = ई आई / एस(ई आई ) = आई / आरएसई√ 1-एच ii

सोना:

  • e i : i वां अवशेष
  • आरएसई: मॉडल की अवशिष्ट मानक त्रुटि
  • h ii : ith अवलोकन का उदय

व्यवहार में, हम अक्सर किसी भी मानकीकृत अवशिष्ट पर विचार करते हैं जिसका पूर्ण मूल्य 3 से अधिक है।

यह ट्यूटोरियल पायथन में मानकीकृत अवशेषों की गणना करने का चरण-दर-चरण उदाहरण प्रदान करता है।

चरण 1: डेटा दर्ज करें

सबसे पहले, हम पायथन में काम करने के लिए एक छोटा डेटासेट बनाएंगे:

 import pandas as pd

#create dataset
df = pd. DataFrame ({' x ': [8, 12, 12, 13, 14, 16, 17, 22, 24, 26, 29, 30],
                   ' y ': [41, 42, 39, 37, 35, 39, 45, 46, 39, 49, 55, 57]})

चरण 2: प्रतिगमन मॉडल को फ़िट करें

इसके बाद, हम एक सरल रैखिक प्रतिगमन मॉडल फिट करेंगे:

 import statsmodels. api as sm

#define response variable
y = df[' y ']

#define explanatory variable
x = df[' x ']

#add constant to predictor variables
x = sm. add_constant (x)

#fit linear regression model
model = sm. OLS (y,x). fit ()

चरण 3: मानकीकृत अवशेषों की गणना करें

आगे, हम मॉडल के मानकीकृत अवशेषों की गणना करेंगे:

 #create instance of influence
influence = model. get_influence ()

#obtain standardized residuals
standardized_residuals = influence. reside_studentized_internal

#display standardized residuals
print (standardized_residuals)

[ 1.40517322 0.81017562 0.07491009 -0.59323342 -1.2482053 -0.64248883
  0.59610905 -0.05876884 -2.11711982 -0.066556 0.91057211 1.26973888]

परिणामों से, हम देख सकते हैं कि कोई भी मानकीकृत अवशेष 3 के निरपेक्ष मान से अधिक नहीं है। इस प्रकार, कोई भी अवलोकन आउटलेर नहीं दिखता है।

चरण 4: मानकीकृत अवशेषों की कल्पना करें

अंत में, हम मानकीकृत अवशेषों के विरुद्ध भविष्यवक्ता चर के मूल्यों की कल्पना करने के लिए एक स्कैटरप्लॉट बना सकते हैं:

 import matplotlib. pyplot as plt

plt. scatter (df.x, standardized_residuals)
plt. xlabel (' x ')
plt. ylabel (' Standardized Residuals ')
plt. axhline (y=0, color=' black ', linestyle=' -- ', linewidth=1)
plt. show ()

अतिरिक्त संसाधन

अवशेष क्या हैं?
मानकीकृत अवशेष क्या हैं?
आर में मानकीकृत अवशेषों की गणना कैसे करें
एक्सेल में मानकीकृत अवशेषों की गणना कैसे करें

एक टिप्पणी जोड़ने

आपका ईमेल पता प्रकाशित नहीं किया जाएगा. आवश्यक फ़ील्ड चिह्नित हैं *