जारो-विंकलर समानता का परिचय (परिभाषा और उदाहरण)


आंकड़ों में, जारो-विंकलर समानता दो तारों के बीच समानता को मापने का एक तरीका है।

दो तारों के बीच जारो समानता (सिम जे ) को इस प्रकार परिभाषित किया गया है:

सिम जे = 1/3 * (एम /|एस 1 | + एम/|एस 2 | + (एमटी)/एम)

सोना:

  • एम : मेल खाने वाले वर्णों की संख्या
    • s 1 और s 2 के दो वर्णों को मेल खाने वाला माना जाता है यदि वे समान हों और [max(|s 1 |, |s 2 |) / 2] – एक दूसरे से 1 वर्ण से अधिक न हों।
  • |एस 1 | , |एस 2 | : क्रमशः पहली और दूसरी स्ट्रिंग की लंबाई
  • t : स्थानान्तरण की संख्या
    • मेल खाने वाले वर्णों की संख्या (लेकिन एक अलग क्रम में) को 2 से विभाजित करके गणना की जाती है।

जारो-विंकलर समानता (सिम डब्ल्यू ) को इस प्रकार परिभाषित किया गया है:

सिम डब्ल्यू = सिम जे + एलपी (1 – सिम जे )

सोना:

  • सिम जे : दो स्ट्रिंग्स, एस 1 और एस 2 के बीच जारो समानता
  • एल : स्ट्रिंग की शुरुआत में सामान्य उपसर्ग की लंबाई (अधिकतम 4 अक्षर)
  • पी : स्केलिंग कारक यह दर्शाता है कि सामान्य उपसर्गों के लिए स्कोर को कितना ऊपर की ओर समायोजित किया गया है। आमतौर पर इसे p = 0.1 के रूप में परिभाषित किया जाता है और इसे p = 0.25 से अधिक नहीं होना चाहिए।

दो तारों के बीच जारो-विंकलर समानता हमेशा 0 और 1 के बीच होती है जहां:

  • 0 स्ट्रिंग्स के बीच कोई समानता नहीं दर्शाता है
  • 1 इंगित करता है कि तार बिल्कुल मेल खाते हैं

नोट : जारो-विंकलर दूरी को 1 – सिम w के रूप में परिभाषित किया जाएगा।

निम्नलिखित उदाहरण दिखाता है कि व्यवहार में दो तारों के बीच जारो-विंकलर समानता की गणना कैसे करें।

उदाहरण: दो तारों के बीच जारो-विंकलर समानता की गणना करना

मान लीजिए हमारे पास निम्नलिखित दो तार हैं:

  • चैनल 1 (एस 1 ): माउस
  • चैनल 2 (एस 2 ): म्यूट

सबसे पहले, आइए इन दो तारों के बीच जारो समानता की गणना करें:

सिम जे = 1/3 * (एम /|एस 1 | + एम/|एस 2 | + (एमटी)/एम)

सोना:

  • एम : मेल खाने वाले वर्णों की संख्या
    • s 1 और s 2 के दो वर्णों को मेल खाने वाला माना जाता है यदि वे समान हों और [max(|s 1 |, |s 2 |) / 2] – एक दूसरे से 1 वर्ण से अधिक न हों।

इस मामले में, [अधिकतम(|एस 1 |, |एस 2 |) / 2] – 1 की गणना 5/2 – 1 = 1.5 के रूप में की जाती है। हम तीन अक्षरों को संगत के रूप में परिभाषित करेंगे: एम, यू, ई। तो, एम = 3 .

  • |एस 1 | , |एस 2 | : क्रमशः पहली और दूसरी स्ट्रिंग की लंबाई

इस मामले में, |s 1 | = 5 और |एस 1 | = 4 .

  • t : स्थानान्तरण की संख्या
    • मेल खाने वाले वर्णों की संख्या (लेकिन एक अलग क्रम में) को 2 से विभाजित करके गणना की जाती है।

इस मामले में तीन मेल खाने वाले अक्षर हैं लेकिन वे पहले से ही एक ही अनुक्रमिक क्रम में हैं, इसलिए t = 0

इसलिए, हम जारो समानता की गणना इस प्रकार करेंगे:

सिम जे = 1/3 * (3/5 + 3/4 + (3-0)/3) = 0.78333।

आगे, आइए जारो-विंकलर समानता (सिम डब्ल्यू ) की गणना इस प्रकार करें:

सिम डब्ल्यू = सिम जे + एलपी (1 – सिम जे )

इस मामले में, हम गणना करेंगे:

सिम डब्ल्यू = 0.78333 + (1)*(0.1)(1 – 0.78333) = 0.805।

दोनों श्रृंखलाओं के बीच जारो-विंकलर समानता 0.805 है।

चूँकि यह मान 1 के करीब है, यह हमें बताता है कि दोनों तार बहुत समान हैं।

हम आर में दो स्ट्रिंग्स के बीच जारो-विंकलर समानता की गणना करके पुष्टि कर सकते हैं कि यह सही है:

 library (stringdist)

#calculate Jaro-Winkler similarity between 'mouse' and 'mute'
1 - stringdist("mouse", "mute", method = "jw", p= 0.1 )

[1] 0.805

यह उस मान से मेल खाता है जिसकी हमने मैन्युअल रूप से गणना की थी।

अतिरिक्त संसाधन

निम्नलिखित ट्यूटोरियल बताते हैं कि अन्य समानता मेट्रिक्स की गणना कैसे करें:

ब्रे-कर्टिस असमानता का परिचय
जैककार्ड समानता सूचकांक का परिचय

एक टिप्पणी जोड़ने

आपका ईमेल पता प्रकाशित नहीं किया जाएगा. आवश्यक फ़ील्ड चिह्नित हैं *