Jaro-winkler ဆင်တူယိုးမှား မိတ်ဆက် (အဓိပ္ပါယ်နှင့် ဥပမာ)
စာရင်းဇယားများတွင် Jaro-Winkler တူညီမှု သည် ကြိုးနှစ်ခုကြားရှိ ဆင်တူမှုများကို တိုင်းတာရန် နည်းလမ်းတစ်ခုဖြစ်သည်။
ကြိုးနှစ်ခုကြားရှိ Jaro တူညီမှု (sim j ) ကို အောက်ပါအတိုင်း သတ်မှတ်သည်။
sim j = 1/3 * ( m /|s 1 | + m/|s 2 | + (mt)/m )
ရွှေ-
- m : ကိုက်ညီသော စာလုံးအရေအတွက်
- s 1 နှင့် s 2 ၏ စာလုံးနှစ်လုံးသည် တူညီပါက [max(|s 1 |,|s 2 |)/2] – 1 လုံးသည် တစ်ခုနှင့်တစ်ခု တူညီပါက တူညီသည်ဟု ယူဆပါသည်။
- |s 1 | , |s 2 | : ပထမ နှင့် ဒုတိယ ကြိုးအရှည် အသီးသီး
- t : ကူးပြောင်းမှုအရေအတွက်
- ကိုက်ညီသော အက္ခရာ အရေအတွက် (သို့သော်လည်း ကွဲပြားသော အစီအစဥ် အစီအစဥ်ဖြင့်) 2 ဖြင့် တွက်ချက်သည်။
Jaro-Winkler တူညီမှု (sim w ) ကို အောက်ပါအတိုင်း သတ်မှတ်သည်။
sim w = sim j + lp(1 – sim j )
ရွှေ-
- sim j : string နှစ်ခု၊ s 1 နှင့် s 2 အကြား Jaro တူညီမှု
- l : စာကြောင်းအစရှိ ဘုံရှေ့ဆက်၏ အရှည် (အများဆုံး 4 လုံး)
- p − ဘုံရှေ့ဆက်များပါရှိရန် ရမှတ်မည်မျှအပေါ်သို့ ချိန်ညှိထားသည်ကို ညွှန်ပြသော အတိုင်းအတာအချက်။ ပုံမှန်အားဖြင့် ၎င်းကို p = 0.1 အဖြစ် သတ်မှတ်ပြီး p = 0.25 ထက် မပိုသင့်ပါ။
ကြိုးနှစ်ခုကြားရှိ Jaro-Winkler တူညီမှုသည် 0 နှင့် 1 အကြား အမြဲရှိနေသည်-
- 0 သည် ကြိုးများကြားတွင် တူညီမှုမရှိကြောင်း ညွှန်ပြသည်။
- 1 သည် ကြိုးများ အတိအကျ ကိုက်ညီကြောင်း ညွှန်ပြသည်။
မှတ်ချက် – Jaro-Winkler အကွာအဝေးကို 1-sim w အဖြစ် သတ်မှတ်ပါမည်။
အောက်ဖော်ပြပါ ဥပမာသည် လက်တွေ့တွင် ကြိုးနှစ်ချောင်းကြား Jaro-Winkler တူညီမှုကို တွက်ချက်နည်းကို ပြသထားသည်။
ဥပမာ- ကြိုးနှစ်ချောင်းကြားရှိ Jaro-Winkler တူညီမှုကို တွက်ချက်ခြင်း။
ကျွန်ုပ်တို့တွင် အောက်ပါစာကြောင်းနှစ်ခုရှိသည်ဆိုပါစို့။
- ချန်နယ် 1 (s 1 ): မောက်စ်
- Channel 2 (s 2 ) : အသံတိတ်
ဦးစွာ၊ ဤစာကြောင်းနှစ်ခုကြားရှိ Jaro တူညီမှုကို တွက်ကြည့်ကြပါစို့။
sim j = 1/3 * ( m /|s 1 | + m/|s 2 | + (mt)/m )
ရွှေ-
- m : ကိုက်ညီသော စာလုံးအရေအတွက်
- s 1 နှင့် s 2 ၏ စာလုံးနှစ်လုံးသည် တူညီပါက [max(|s 1 |,|s 2 |)/2] – 1 လုံးသည် တစ်ခုနှင့်တစ်ခု တူညီပါက တူညီသည်ဟု ယူဆပါသည်။
ဤအခြေအနေတွင်၊ [max(|s 1 |,|s 2 |)/2] – 1 ကို 5/2 – 1 = 1.5 အဖြစ် တွက်ချက်သည်။ တူညီသော စာလုံးသုံးလုံးကို m၊ u၊ e ဟူ၍ သတ်မှတ်ပါမည်။ ဒီတော့ m = 3 ။
- |s 1 | , |s 2 | : ပထမ နှင့် ဒုတိယ ကြိုးအရှည် အသီးသီး
ဒီနေရာမှာ |s 1 | = 5 နှင့် |s 1 | = ၄ ။
- t : ကူးပြောင်းမှုအရေအတွက်
- တူညီသော အက္ခရာ အရေအတွက် (သို့သော်လည်း ကွဲပြားသော အစီအစဥ် အစီအစဥ် အရ) 2 ဖြင့် တွက်ချက်သည်။
ဤကိစ္စတွင် တူညီသော အက္ခရာသုံးလုံးရှိသော်လည်း ၎င်းတို့သည် တူညီသော sequential order တွင်ရှိပြီးဖြစ်သောကြောင့် t = 0 ဖြစ်သည်။
ထို့ကြောင့် Jaro ၏တူညီမှုကို အောက်ပါအတိုင်း တွက်ချက်ပါမည်။
sim j = 1/3 * (3/5 + 3/4 + (3-0)/3) = 0.78333 ။
ထို့နောက်၊ Jaro-Winkler ဆင်တူယိုးမှား (sim w ) ကို အောက်ပါအတိုင်း တွက်ကြည့်ကြပါစို့။
sim w = sim j + lp(1 – sim j )
ဤကိစ္စတွင်၊ ကျွန်ုပ်တို့တွက်ချက်သည်-
sim w = 0.78333 + (1)*(0.1)(1 – 0.78333) = 0.805။
ကွင်းဆက်နှစ်ခုကြားရှိ Jaro-Winkler တူညီမှုသည် 0.805 ဖြစ်သည်။
ဤတန်ဖိုးသည် 1 နှင့် နီးစပ်သောကြောင့်၊ ၎င်းသည် ကြိုးတန်းနှစ်ခုသည် အလွန်ဆင်တူကြောင်း ကျွန်ုပ်တို့ကိုပြောပြသည်။
R ရှိ စာကြောင်းနှစ်ခုကြားရှိ Jaro-Winkler တူညီမှုကို တွက်ချက်ခြင်းဖြင့် ၎င်းသည် မှန်ကန်ကြောင်း ကျွန်ုပ်တို့ အတည်ပြုနိုင်သည်-
library (stringdist) #calculate Jaro-Winkler similarity between 'mouse' and 'mute' 1 - stringdist("mouse", "mute", method = "jw", p= 0.1 ) [1] 0.805
၎င်းသည် ကျွန်ုပ်တို့ကိုယ်တိုင်တွက်ချက်ထားသော တန်ဖိုးနှင့် ကိုက်ညီပါသည်။
ထပ်လောင်းအရင်းအမြစ်များ
အောက်ဖော်ပြပါ သင်ခန်းစာများတွင် အခြားဆင်တူသည့် မက်ထရစ်များကို တွက်ချက်နည်းကို ရှင်းပြထားပါသည်။
Bray-Curtis ကွဲပြားခြင်းအကြောင်း နိဒါန်း
Jaccard ဆင်တူယိုးမှား အညွှန်းကိန်း မိတ်ဆက်