जैकार्ड समानता सूचकांक की एक सरल व्याख्या
जैककार्ड समानता सूचकांक दो डेटासेट के बीच समानता का एक माप है।
पॉल जैकार्ड द्वारा विकसित, सूचकांक 0 से 1 तक होता है। यह 1 के जितना करीब होता है, दोनों डेटा सेट उतने ही अधिक समान होते हैं।
जैकार्ड समानता सूचकांक की गणना निम्नानुसार की जाती है:
जैकार्ड समानता = (दोनों सेटों में अवलोकनों की संख्या) / (किसी भी सेट में संख्या)
या, संकेतन रूप में लिखा गया है:
जे(ए, बी) = |ए∩बी| / |ए∪बी|
यदि दो डेटासेट बिल्कुल समान सदस्यों को साझा करते हैं, तो उनका जैककार्ड समानता सूचकांक 1 होगा। इसके विपरीत, यदि उनके पास कोई सदस्य समान नहीं है, तो उनकी समानता 0 होगी।
निम्नलिखित उदाहरण दिखाते हैं कि कुछ अलग डेटासेट के लिए जैककार्ड समानता सूचकांक की गणना कैसे करें।
उदाहरण 1: जैककार्ड समानता
मान लीजिए हमारे पास डेटा के निम्नलिखित दो सेट हैं:
A = [0, 1, 2, 5, 6, 8, 9] B = [0, 2, 3, 4, 5, 7, 9]
उनके बीच जैकार्ड समानता की गणना करने के लिए, हम पहले दोनों सेटों में अवलोकनों की कुल संख्या ज्ञात करते हैं, फिर किसी भी सेट में अवलोकनों की कुल संख्या से विभाजित करते हैं:
- दोनों में प्रेक्षणों की संख्या: {0, 2, 5, 9} = 4
- इनमें से किसी एक में प्रेक्षणों की संख्या: {0, 1, 2, 3, 4, 5, 6, 7, 8, 9} = 10
- जैककार्ड समानता: 4/10 = 0.4
जैककार्ड समानता सूचकांक 0.4 निकला।
उदाहरण 2: जैकार्ड समानता (जारी)
मान लीजिए हमारे पास डेटा के निम्नलिखित दो सेट हैं:
C = [0, 1, 2, 3, 4, 5] D = [6, 7, 8, 9, 10]
उनके बीच जैकार्ड समानता की गणना करने के लिए, हम पहले दोनों सेटों में अवलोकनों की कुल संख्या ज्ञात करते हैं, फिर किसी भी सेट में अवलोकनों की कुल संख्या से विभाजित करते हैं:
- दोनों में प्रेक्षणों की संख्या: {} = 0
- इनमें से किसी एक में प्रेक्षणों की संख्या: {0, 1, 2, 3, 4, 5, 6, 7, 8, 9, 10} = 11
- जैककार्ड समानता: 0/11 = 0
जैककार्ड समानता सूचकांक 0 निकला। यह इंगित करता है कि दोनों डेटासेट किसी भी सामान्य सदस्य को साझा नहीं करते हैं।
उदाहरण 3: पात्रों के लिए जैककार्ड समानता
ध्यान दें कि हम संख्याओं के बजाय वर्णों वाले डेटासेट के लिए जैककार्ड समानता सूचकांक का भी उपयोग कर सकते हैं।
उदाहरण के लिए, मान लें कि हमारे पास डेटा के निम्नलिखित दो सेट हैं:
E = ['cat', 'dog', 'hippo', 'monkey'] F = ['monkey', 'rhino', 'ostrich', 'salmon']
उनके बीच जैकार्ड समानता की गणना करने के लिए, हम पहले दोनों सेटों में अवलोकनों की कुल संख्या ज्ञात करते हैं, फिर किसी भी सेट में अवलोकनों की कुल संख्या से विभाजित करते हैं:
- दोनों में अवलोकनों की संख्या: {‘बंदर’} = 1
- एक या दूसरे में अवलोकनों की संख्या: {‘बिल्ली’, ‘कुत्ता’, दरियाई घोड़ा’, ‘बंदर’, ‘गैंडा’, ‘शुतुरमुर्ग’, ‘सैल्मन’} = 7
- जैककार्ड समानता: 1/7 = 0.142857
जैककार्ड समानता सूचकांक 0.142857 निकला। यह संख्या काफी कम है, इससे पता चलता है कि दोनों सेट काफी अलग हैं।
जैकार्ड दूरी
जैकार्ड दूरी दो डेटासेट के बीच असमानता को मापती है और इसकी गणना निम्नानुसार की जाती है:
जैकार्ड दूरी = 1 – जैकार्ड समानता
यह माप हमें यह अंदाज़ा देता है कि डेटा के दो सेट कितने भिन्न हैं या वे कितने भिन्न हैं।
उदाहरण के लिए, यदि दो डेटासेट में जैककार्ड समानता 80% है, तो उनकी जैककार्ड दूरी 1 – 0.8 = 0.2 या 20% होगी।
अतिरिक्त संसाधन
निम्नलिखित ट्यूटोरियल बताते हैं कि विभिन्न सांख्यिकीय सॉफ़्टवेयर का उपयोग करके जैककार्ड समानता की गणना कैसे करें:
आर में जैककार्ड समानता की गणना कैसे करें
पायथन में जैकार्ड समानता की गणना कैसे करें