पायथन में मानकीकृत अवशेषों की गणना कैसे करें
अवशिष्ट एक प्रतिगमन मॉडल में देखे गए मूल्य और अनुमानित मूल्य के बीच का अंतर है।
इसकी गणना इस प्रकार की जाती है:
अवशिष्ट = प्रेक्षित मूल्य – अनुमानित मूल्य
यदि हम देखे गए मानों को प्लॉट करते हैं और फिटेड रिग्रेशन लाइन को सुपरइम्पोज़ करते हैं, तो प्रत्येक अवलोकन के लिए अवशेष अवलोकन और रिग्रेशन लाइन के बीच ऊर्ध्वाधर दूरी होगी:
एक प्रकार का अवशिष्ट जिसे हम अक्सर प्रतिगमन मॉडल में आउटलेर्स की पहचान करने के लिए उपयोग करते हैं , मानकीकृत अवशिष्ट कहा जाता है।
इसकी गणना इस प्रकार की जाती है:
आर आई = ई आई / एस(ई आई ) = ई आई / आरएसई√ 1-एच ii
सोना:
- e i : i वां अवशेष
- आरएसई: मॉडल की अवशिष्ट मानक त्रुटि
- h ii : ith अवलोकन का उदय
व्यवहार में, हम अक्सर किसी भी मानकीकृत अवशिष्ट पर विचार करते हैं जिसका पूर्ण मूल्य 3 से अधिक है।
यह ट्यूटोरियल पायथन में मानकीकृत अवशेषों की गणना करने का चरण-दर-चरण उदाहरण प्रदान करता है।
चरण 1: डेटा दर्ज करें
सबसे पहले, हम पायथन में काम करने के लिए एक छोटा डेटासेट बनाएंगे:
import pandas as pd #create dataset df = pd. DataFrame ({' x ': [8, 12, 12, 13, 14, 16, 17, 22, 24, 26, 29, 30], ' y ': [41, 42, 39, 37, 35, 39, 45, 46, 39, 49, 55, 57]})
चरण 2: प्रतिगमन मॉडल को फ़िट करें
इसके बाद, हम एक सरल रैखिक प्रतिगमन मॉडल फिट करेंगे:
import statsmodels. api as sm
#define response variable
y = df[' y ']
#define explanatory variable
x = df[' x ']
#add constant to predictor variables
x = sm. add_constant (x)
#fit linear regression model
model = sm. OLS (y,x). fit ()
चरण 3: मानकीकृत अवशेषों की गणना करें
आगे, हम मॉडल के मानकीकृत अवशेषों की गणना करेंगे:
#create instance of influence influence = model. get_influence () #obtain standardized residuals standardized_residuals = influence. reside_studentized_internal #display standardized residuals print (standardized_residuals) [ 1.40517322 0.81017562 0.07491009 -0.59323342 -1.2482053 -0.64248883 0.59610905 -0.05876884 -2.11711982 -0.066556 0.91057211 1.26973888]
परिणामों से, हम देख सकते हैं कि कोई भी मानकीकृत अवशेष 3 के निरपेक्ष मान से अधिक नहीं है। इस प्रकार, कोई भी अवलोकन आउटलेर नहीं दिखता है।
चरण 4: मानकीकृत अवशेषों की कल्पना करें
अंत में, हम मानकीकृत अवशेषों के विरुद्ध भविष्यवक्ता चर के मूल्यों की कल्पना करने के लिए एक स्कैटरप्लॉट बना सकते हैं:
import matplotlib. pyplot as plt
plt. scatter (df.x, standardized_residuals)
plt. xlabel (' x ')
plt. ylabel (' Standardized Residuals ')
plt. axhline (y=0, color=' black ', linestyle=' -- ', linewidth=1)
plt. show ()
अतिरिक्त संसाधन
अवशेष क्या हैं?
मानकीकृत अवशेष क्या हैं?
आर में मानकीकृत अवशेषों की गणना कैसे करें
एक्सेल में मानकीकृत अवशेषों की गणना कैसे करें