आर में महालनोबिस दूरी की गणना कैसे करें

द्वारा डॉ. बेंजामिन एंडरसन जुलाई 28, 2023 मार्गदर्शक शून्य टिप्पणियां

महालनोबिस दूरी एक बहुभिन्नरूपी स्थान में दो बिंदुओं के बीच की दूरी है।

इसका उपयोग अक्सर कई चर वाले सांख्यिकीय विश्लेषणों में आउटलेर्स का पता लगाने के लिए किया जाता है।

यह ट्यूटोरियल बताता है कि आर में महालनोबिस दूरी की गणना कैसे करें।

उदाहरण: आर में महालनोबिस दूरी

आर में डेटासेट में प्रत्येक अवलोकन के लिए महालनोबिस दूरी की गणना करने के लिए निम्नलिखित चरणों का उपयोग करें।

चरण 1: डेटासेट बनाएं।

सबसे पहले, हम एक डेटासेट बनाएंगे जो 20 छात्रों के परीक्षा स्कोर को प्रदर्शित करेगा, साथ ही उनके अध्ययन में बिताए गए घंटों की संख्या, उनके द्वारा दी गई अभ्यास परीक्षाओं की संख्या और पाठ्यक्रम में उनके वर्तमान ग्रेड को प्रदर्शित करेगा:

 #create data
df = data.frame(score = c(91, 93, 72, 87, 86, 73, 68, 87, 78, 99, 95, 76, 84, 96, 76, 80, 83, 84, 73, 74) ,
        hours = c(16, 6, 3, 1, 2, 3, 2, 5, 2, 5, 2, 3, 4, 3, 3, 3, 4, 3, 4, 4),
        prep = c(3, 4, 0, 3, 4, 0, 1, 2, 1, 2, 3, 3, 3, 2, 2, 2, 3, 3, 2, 2),
        grade = c(70, 88, 80, 83, 88, 84, 78, 94, 90, 93, 89, 82, 95, 94, 81, 93, 93, 90, 89, 89))

#view first six rows of data
head(df)

  score hours prep grade
1 91 16 3 70
2 93 6 4 88
3 72 3 0 80
4 87 1 3 83
5 86 2 4 88
6 73 3 0 84

चरण 2: प्रत्येक अवलोकन के लिए महालनोबिस दूरी की गणना करें।

इसके बाद, हम प्रत्येक अवलोकन के लिए महालनोबिस दूरी की गणना करने के लिए आर में निर्मित महालनोबिस () फ़ंक्शन का उपयोग करेंगे, जो निम्नलिखित सिंटैक्स का उपयोग करता है:

महालनोबिस (एक्स, केंद्र, सीओवी)

सोना:

एक्स: डेटा मैट्रिक्स
केंद्र: वितरण का औसत वेक्टर
सीओवी: वितरण सहप्रसरण मैट्रिक्स

निम्नलिखित कोड दिखाता है कि हमारे डेटासेट के लिए इस फ़ंक्शन को कैसे कार्यान्वित किया जाए:

 #calculate Mahalanobis distance for each observation
mahalanobis(df, colMeans(df), cov(df))

 [1] 16.5019630 2.6392864 4.8507973 5.2012612 3.8287341 4.0905633
 [7] 4.2836303 2.4198736 1.6519576 5.6578253 3.9658770 2.9350178
[13] 2.8102109 4.3682945 1.5610165 1.4595069 2.0245748 0.7502536
[19] 2.7351292 2.2642268

चरण 3: प्रत्येक महालनोबिस दूरी के लिए पी-मान की गणना करें।

हम देख सकते हैं कि कुछ महालनोबिस दूरियाँ दूसरों की तुलना में बहुत अधिक हैं।

यह निर्धारित करने के लिए कि क्या कोई दूरी सांख्यिकीय रूप से महत्वपूर्ण है, हमें उनके पी-मानों की गणना करने की आवश्यकता है।

प्रत्येक दूरी के लिए पी-वैल्यू की गणना पी-वैल्यू के रूप में की जाती है जो कि के-1 डिग्री की स्वतंत्रता के साथ महालनोबिस दूरी के ची-स्क्वायर आंकड़े से मेल खाती है, जहां के = चर की संख्या।

तो इस मामले में हम 4-1 = 3 की स्वतंत्रता की डिग्री का उपयोग करेंगे।

 #create new column in data frame to hold Mahalanobis distances
df$mahal <- mahalanobis(df, colMeans(df), cov(df))

#create new column in data frame to hold p-value for each Mahalanobis distance
df$p <- pchisq (df$mahal, df= 3 , lower.tail=FALSE)

#view data frame
df

   score hours prep grade mahal p
1 91 16 3 70 16.5019630 0.0008945642
2 93 6 4 88 2.6392864 0.4506437265
3 72 3 0 80 4.8507973 0.1830542407
4 87 1 3 83 5.2012612 0.1576392526
5 86 2 4 88 3.8287341 0.2805615121
6 73 3 0 84 4.0905633 0.2518495222
7 68 2 1 78 4.2836303 0.2324211504
8 87 5 2 94 2.4198736 0.4899458807
9 78 2 1 90 1.6519576 0.6476670033
10 99 5 2 93 5.6578253 0.1294978092
11 95 2 3 89 3.9658770 0.2651724541
12 76 3 3 82 2.9350178 0.4017530495
13 84 4 3 95 2.8102109 0.4218217836
14 96 3 2 94 4.3682945 0.2243432904
15 76 3 2 81 1.5610165 0.6682610031
16 80 3 2 93 1.4595069 0.6916471506
17 83 4 3 93 2.0245748 0.5673218169
18 84 3 3 90 0.7502536 0.8613248635
19 73 4 2 89 2.7351292 0.4342904353
20 74 4 2 89 2.2642268 0.5194087143

आम तौर पर, 0.001 से कम पी-वैल्यू को आउटलायर माना जाता है।

हम देख सकते हैं कि पहला अवलोकन डेटासेट में एक बाहरी है क्योंकि इसका पी-मान 0.001 से कम है।

समस्या के संदर्भ के आधार पर, आप इस अवलोकन को डेटासेट से हटाने का निर्णय ले सकते हैं क्योंकि यह एक बाहरी चीज़ है और विश्लेषण परिणामों को प्रभावित कर सकता है।

संबंधित: आर में बहुभिन्नरूपी सामान्यता परीक्षण कैसे करें

लेखक के बारे में

डॉ. बेंजामिन एंडरसन

नमस्ते, मैं बेंजामिन हूं, एक सेवानिवृत्त सांख्यिकी प्रोफेसर जो अब समर्पित Statorials शिक्षक बन गया है। सांख्यिकी के क्षेत्र में व्यापक अनुभव और विशेषज्ञता के साथ, मैं Statorials के माध्यम से छात्रों को सशक्त बनाने के लिए अपना ज्ञान साझा करने के लिए उत्सुक हूं। अधिक जाने

उदाहरण: आर में महालनोबिस दूरी

लेखक के बारे में

डॉ. बेंजामिन एंडरसन

एक टिप्पणी जोड़ने