जैकार्ड समानता सूचकांक की एक सरल व्याख्या


जैककार्ड समानता सूचकांक दो डेटासेट के बीच समानता का एक माप है।

पॉल जैकार्ड द्वारा विकसित, सूचकांक 0 से 1 तक होता है। यह 1 के जितना करीब होता है, दोनों डेटा सेट उतने ही अधिक समान होते हैं।

जैकार्ड समानता सूचकांक की गणना निम्नानुसार की जाती है:

जैकार्ड समानता = (दोनों सेटों में अवलोकनों की संख्या) / (किसी भी सेट में संख्या)

या, संकेतन रूप में लिखा गया है:

जे(ए, बी) = |ए∩बी| / |ए∪बी|

यदि दो डेटासेट बिल्कुल समान सदस्यों को साझा करते हैं, तो उनका जैककार्ड समानता सूचकांक 1 होगा। इसके विपरीत, यदि उनके पास कोई सदस्य समान नहीं है, तो उनकी समानता 0 होगी।

निम्नलिखित उदाहरण दिखाते हैं कि कुछ अलग डेटासेट के लिए जैककार्ड समानता सूचकांक की गणना कैसे करें।

उदाहरण 1: जैककार्ड समानता

मान लीजिए हमारे पास डेटा के निम्नलिखित दो सेट हैं:

 A = [0, 1, 2, 5, 6, 8, 9]
B = [0, 2, 3, 4, 5, 7, 9]

उनके बीच जैकार्ड समानता की गणना करने के लिए, हम पहले दोनों सेटों में अवलोकनों की कुल संख्या ज्ञात करते हैं, फिर किसी भी सेट में अवलोकनों की कुल संख्या से विभाजित करते हैं:

  • दोनों में प्रेक्षणों की संख्या: {0, 2, 5, 9} = 4
  • इनमें से किसी एक में प्रेक्षणों की संख्या: {0, 1, 2, 3, 4, 5, 6, 7, 8, 9} = 10
  • जैककार्ड समानता: 4/10 = 0.4

जैककार्ड समानता सूचकांक 0.4 निकला।

उदाहरण 2: जैकार्ड समानता (जारी)

मान लीजिए हमारे पास डेटा के निम्नलिखित दो सेट हैं:

 C = [0, 1, 2, 3, 4, 5]
D = [6, 7, 8, 9, 10]

उनके बीच जैकार्ड समानता की गणना करने के लिए, हम पहले दोनों सेटों में अवलोकनों की कुल संख्या ज्ञात करते हैं, फिर किसी भी सेट में अवलोकनों की कुल संख्या से विभाजित करते हैं:

  • दोनों में प्रेक्षणों की संख्या: {} = 0
  • इनमें से किसी एक में प्रेक्षणों की संख्या: {0, 1, 2, 3, 4, 5, 6, 7, 8, 9, 10} = 11
  • जैककार्ड समानता: 0/11 = 0

जैककार्ड समानता सूचकांक 0 निकला। यह इंगित करता है कि दोनों डेटासेट किसी भी सामान्य सदस्य को साझा नहीं करते हैं।

उदाहरण 3: पात्रों के लिए जैककार्ड समानता

ध्यान दें कि हम संख्याओं के बजाय वर्णों वाले डेटासेट के लिए जैककार्ड समानता सूचकांक का भी उपयोग कर सकते हैं।

उदाहरण के लिए, मान लें कि हमारे पास डेटा के निम्नलिखित दो सेट हैं:

 E = ['cat', 'dog', 'hippo', 'monkey']
F = ['monkey', 'rhino', 'ostrich', 'salmon']

उनके बीच जैकार्ड समानता की गणना करने के लिए, हम पहले दोनों सेटों में अवलोकनों की कुल संख्या ज्ञात करते हैं, फिर किसी भी सेट में अवलोकनों की कुल संख्या से विभाजित करते हैं:

  • दोनों में अवलोकनों की संख्या: {‘बंदर’} = 1
  • एक या दूसरे में अवलोकनों की संख्या: {‘बिल्ली’, ‘कुत्ता’, दरियाई घोड़ा’, ‘बंदर’, ‘गैंडा’, ‘शुतुरमुर्ग’, ‘सैल्मन’} = 7
  • जैककार्ड समानता: 1/7 = 0.142857

जैककार्ड समानता सूचकांक 0.142857 निकला। यह संख्या काफी कम है, इससे पता चलता है कि दोनों सेट काफी अलग हैं।

जैकार्ड दूरी

जैकार्ड दूरी दो डेटासेट के बीच असमानता को मापती है और इसकी गणना निम्नानुसार की जाती है:

जैकार्ड दूरी = 1 – जैकार्ड समानता

यह माप हमें यह अंदाज़ा देता है कि डेटा के दो सेट कितने भिन्न हैं या वे कितने भिन्न हैं।

उदाहरण के लिए, यदि दो डेटासेट में जैककार्ड समानता 80% है, तो उनकी जैककार्ड दूरी 1 – 0.8 = 0.2 या 20% होगी।

अतिरिक्त संसाधन

निम्नलिखित ट्यूटोरियल बताते हैं कि विभिन्न सांख्यिकीय सॉफ़्टवेयर का उपयोग करके जैककार्ड समानता की गणना कैसे करें:

आर में जैककार्ड समानता की गणना कैसे करें
पायथन में जैकार्ड समानता की गणना कैसे करें

एक टिप्पणी जोड़ने

आपका ईमेल पता प्रकाशित नहीं किया जाएगा. आवश्यक फ़ील्ड चिह्नित हैं *