एसएएस में आउटलेर्स की पहचान कैसे करें (उदाहरण के साथ)
आउटलायर एक ऐसा अवलोकन है जो डेटा सेट में अन्य मानों से असामान्य रूप से दूर होता है। आउटलेर्स समस्याग्रस्त हो सकते हैं क्योंकि वे विश्लेषण के परिणामों को प्रभावित कर सकते हैं।
डेटा सेट में आउटलेर्स की पहचान करने का सबसे आम तरीका इंटरक्वेर्टाइल रेंज का उपयोग करना है।
इंटरक्वेर्टाइल रेंज (IQR) एक डेटा सेट में 75वें प्रतिशतक (Q3) और 25वें प्रतिशतक (Q1) के बीच का अंतर है। यह औसत 50% मूल्यों के वितरण को मापता है।
हम आम तौर पर एक अवलोकन को एक बाहरी के रूप में परिभाषित करते हैं यदि यह तीसरे चतुर्थक (क्यू 3) के ऊपर अंतर-चतुर्थक सीमा का 1.5 गुना है या पहले चतुर्थक (क्यू 1) के नीचे अंतर-चतुर्थक सीमा का 1.5 गुना है।
आउटलाइर्स = अवलोकन > Q3 + 1.5*IQR या <Q1 – 1.5*IQR
निम्नलिखित उदाहरण दिखाता है कि एसएएस में डेटा सेट में आउटलेर्स की पहचान करने के लिए इस सूत्र का उपयोग कैसे करें।
उदाहरण: एसएएस में आउटलेर्स की पहचान करना
आइए मान लें कि हमारे पास एसएएस में निम्नलिखित डेटा सेट है:
/*create dataset*/
data original_data;
input team $points;
datalines ;
At 18
B24
C26
D 34
E 38
F45
G 48
H 54
I 60
Day 73
K 79
L 85
M 94
No. 98
O 221
P 223
;
run ;
/*view dataset*/
proc print data = original_data;
एसएएस में आउटलेर्स की पहचान करने का सबसे आसान तरीका एक बॉक्सप्लॉट बनाना है, जो डेटासेट में आउटलेर्स को छोटे सर्कल के रूप में पहचानने और प्रदर्शित करने के लिए स्वचालित रूप से पहले उल्लिखित सूत्र का उपयोग करता है:
/*create boxplot to visualize distribution of points*/
ods output sgplot=boxplot_data;
proc sgplot data =original_data;
vbox points;
run ;
/*view summary of boxplot descriptive statistics*/
proc print data =boxplot_data;
बॉक्सप्लॉट से हम देख सकते हैं कि प्लॉट के शीर्ष के पास दो छोटे वृत्त हैं। यह इंगित करता है कि दो आउटलेयर हैं।
बॉक्सप्लॉट के नीचे तालिका में, हम दो आउटलेर्स के सटीक मान देख सकते हैं: 221 और 223 ।
हम पिछले सूत्र का उपयोग करके मैन्युअल रूप से जांच सकते हैं कि ये दो मान आउटलेर हैं:
आउटलाइर्स = अवलोकन > Q3 + 1.5*IQR या <Q1 – 1.5*IQR
अंतरचतुर्थक सीमा है: Q3 – Q1 = 89.5 – 36 = 53.5।
आउटलेर्स के लिए ऊपरी सीमा होगी: Q3 + 1.5*IQR = 89.5 + 1.5*53.5 = 169.75.
चूँकि 221 और 223 दोनों इस मान से अधिक हैं, इसलिए उन्हें आउटलेयर के रूप में वर्गीकृत किया गया है।
यदि हम चाहें तो डेटासेट से इन दो आउटलेर्स को हटाने के लिए हम निम्नलिखित कोड का उपयोग कर सकते हैं:
/*create new dataset with outliers removed*/
data new_data;
set original_data;
if points >= 221 then delete;
run ;
/*view new dataset*/
proc print data =new_data;
ध्यान दें कि दो आउटलेर्स हटा दिए गए हैं।
अतिरिक्त संसाधन
निम्नलिखित ट्यूटोरियल बताते हैं कि एसएएस में अन्य सामान्य कार्य कैसे करें:
एसएएस में प्रक्रिया सारांश का उपयोग कैसे करें
एसएएस में प्रोक टेबुलेट का उपयोग कैसे करें
एसएएस में सहसंबंध की गणना कैसे करें
एसएएस में फ़्रीक्वेंसी टेबल कैसे बनाएं
एसएएस में लुप्त मानों को शून्य से कैसे बदलें