जारो-विंकलर समानता का परिचय (परिभाषा और उदाहरण)
आंकड़ों में, जारो-विंकलर समानता दो तारों के बीच समानता को मापने का एक तरीका है।
दो तारों के बीच जारो समानता (सिम जे ) को इस प्रकार परिभाषित किया गया है:
सिम जे = 1/3 * (एम /|एस 1 | + एम/|एस 2 | + (एमटी)/एम)
सोना:
- एम : मेल खाने वाले वर्णों की संख्या
- s 1 और s 2 के दो वर्णों को मेल खाने वाला माना जाता है यदि वे समान हों और [max(|s 1 |, |s 2 |) / 2] – एक दूसरे से 1 वर्ण से अधिक न हों।
- |एस 1 | , |एस 2 | : क्रमशः पहली और दूसरी स्ट्रिंग की लंबाई
- t : स्थानान्तरण की संख्या
- मेल खाने वाले वर्णों की संख्या (लेकिन एक अलग क्रम में) को 2 से विभाजित करके गणना की जाती है।
जारो-विंकलर समानता (सिम डब्ल्यू ) को इस प्रकार परिभाषित किया गया है:
सिम डब्ल्यू = सिम जे + एलपी (1 – सिम जे )
सोना:
- सिम जे : दो स्ट्रिंग्स, एस 1 और एस 2 के बीच जारो समानता
- एल : स्ट्रिंग की शुरुआत में सामान्य उपसर्ग की लंबाई (अधिकतम 4 अक्षर)
- पी : स्केलिंग कारक यह दर्शाता है कि सामान्य उपसर्गों के लिए स्कोर को कितना ऊपर की ओर समायोजित किया गया है। आमतौर पर इसे p = 0.1 के रूप में परिभाषित किया जाता है और इसे p = 0.25 से अधिक नहीं होना चाहिए।
दो तारों के बीच जारो-विंकलर समानता हमेशा 0 और 1 के बीच होती है जहां:
- 0 स्ट्रिंग्स के बीच कोई समानता नहीं दर्शाता है
- 1 इंगित करता है कि तार बिल्कुल मेल खाते हैं
नोट : जारो-विंकलर दूरी को 1 – सिम w के रूप में परिभाषित किया जाएगा।
निम्नलिखित उदाहरण दिखाता है कि व्यवहार में दो तारों के बीच जारो-विंकलर समानता की गणना कैसे करें।
उदाहरण: दो तारों के बीच जारो-विंकलर समानता की गणना करना
मान लीजिए हमारे पास निम्नलिखित दो तार हैं:
- चैनल 1 (एस 1 ): माउस
- चैनल 2 (एस 2 ): म्यूट
सबसे पहले, आइए इन दो तारों के बीच जारो समानता की गणना करें:
सिम जे = 1/3 * (एम /|एस 1 | + एम/|एस 2 | + (एमटी)/एम)
सोना:
- एम : मेल खाने वाले वर्णों की संख्या
- s 1 और s 2 के दो वर्णों को मेल खाने वाला माना जाता है यदि वे समान हों और [max(|s 1 |, |s 2 |) / 2] – एक दूसरे से 1 वर्ण से अधिक न हों।
इस मामले में, [अधिकतम(|एस 1 |, |एस 2 |) / 2] – 1 की गणना 5/2 – 1 = 1.5 के रूप में की जाती है। हम तीन अक्षरों को संगत के रूप में परिभाषित करेंगे: एम, यू, ई। तो, एम = 3 .
- |एस 1 | , |एस 2 | : क्रमशः पहली और दूसरी स्ट्रिंग की लंबाई
इस मामले में, |s 1 | = 5 और |एस 1 | = 4 .
- t : स्थानान्तरण की संख्या
- मेल खाने वाले वर्णों की संख्या (लेकिन एक अलग क्रम में) को 2 से विभाजित करके गणना की जाती है।
इस मामले में तीन मेल खाने वाले अक्षर हैं लेकिन वे पहले से ही एक ही अनुक्रमिक क्रम में हैं, इसलिए t = 0 ।
इसलिए, हम जारो समानता की गणना इस प्रकार करेंगे:
सिम जे = 1/3 * (3/5 + 3/4 + (3-0)/3) = 0.78333।
आगे, आइए जारो-विंकलर समानता (सिम डब्ल्यू ) की गणना इस प्रकार करें:
सिम डब्ल्यू = सिम जे + एलपी (1 – सिम जे )
इस मामले में, हम गणना करेंगे:
सिम डब्ल्यू = 0.78333 + (1)*(0.1)(1 – 0.78333) = 0.805।
दोनों श्रृंखलाओं के बीच जारो-विंकलर समानता 0.805 है।
चूँकि यह मान 1 के करीब है, यह हमें बताता है कि दोनों तार बहुत समान हैं।
हम आर में दो स्ट्रिंग्स के बीच जारो-विंकलर समानता की गणना करके पुष्टि कर सकते हैं कि यह सही है:
library (stringdist) #calculate Jaro-Winkler similarity between 'mouse' and 'mute' 1 - stringdist("mouse", "mute", method = "jw", p= 0.1 ) [1] 0.805
यह उस मान से मेल खाता है जिसकी हमने मैन्युअल रूप से गणना की थी।
अतिरिक्त संसाधन
निम्नलिखित ट्यूटोरियल बताते हैं कि अन्य समानता मेट्रिक्स की गणना कैसे करें:
ब्रे-कर्टिस असमानता का परिचय
जैककार्ड समानता सूचकांक का परिचय