Jaro-winkler ဆင်တူယိုးမှား မိတ်ဆက် (အဓိပ္ပါယ်နှင့် ဥပမာ)


စာရင်းဇယားများတွင် Jaro-Winkler တူညီမှု သည် ကြိုးနှစ်ခုကြားရှိ ဆင်တူမှုများကို တိုင်းတာရန် နည်းလမ်းတစ်ခုဖြစ်သည်။

ကြိုးနှစ်ခုကြားရှိ Jaro တူညီမှု (sim j ) ကို အောက်ပါအတိုင်း သတ်မှတ်သည်။

sim j = 1/3 * ( m /|s 1 | + m/|s 2 | + (mt)/m )

ရွှေ-

  • m : ကိုက်ညီသော စာလုံးအရေအတွက်
    • s 1 နှင့် s 2 ၏ စာလုံးနှစ်လုံးသည် တူညီပါက [max(|s 1 |,|s 2 |)/2] – 1 လုံးသည် တစ်ခုနှင့်တစ်ခု တူညီပါက တူညီသည်ဟု ယူဆပါသည်။
  • |s 1 | , |s 2 | : ပထမ နှင့် ဒုတိယ ကြိုးအရှည် အသီးသီး
  • t : ကူးပြောင်းမှုအရေအတွက်
    • ကိုက်ညီသော အက္ခရာ အရေအတွက် (သို့သော်လည်း ကွဲပြားသော အစီအစဥ် အစီအစဥ်ဖြင့်) 2 ဖြင့် တွက်ချက်သည်။

Jaro-Winkler တူညီမှု (sim w ) ကို အောက်ပါအတိုင်း သတ်မှတ်သည်။

sim w = sim j + lp(1 – sim j )

ရွှေ-

  • sim j : string နှစ်ခု၊ s 1 နှင့် s 2 အကြား Jaro တူညီမှု
  • l : စာကြောင်းအစရှိ ဘုံရှေ့ဆက်၏ အရှည် (အများဆုံး 4 လုံး)
  • p − ဘုံရှေ့ဆက်များပါရှိရန် ရမှတ်မည်မျှအပေါ်သို့ ချိန်ညှိထားသည်ကို ညွှန်ပြသော အတိုင်းအတာအချက်။ ပုံမှန်အားဖြင့် ၎င်းကို p = 0.1 အဖြစ် သတ်မှတ်ပြီး p = 0.25 ထက် မပိုသင့်ပါ။

ကြိုးနှစ်ခုကြားရှိ Jaro-Winkler တူညီမှုသည် 0 နှင့် 1 အကြား အမြဲရှိနေသည်-

  • 0 သည် ကြိုးများကြားတွင် တူညီမှုမရှိကြောင်း ညွှန်ပြသည်။
  • 1 သည် ကြိုးများ အတိအကျ ကိုက်ညီကြောင်း ညွှန်ပြသည်။

မှတ်ချက် – Jaro-Winkler အကွာအဝေးကို 1-sim w အဖြစ် သတ်မှတ်ပါမည်။

အောက်ဖော်ပြပါ ဥပမာသည် လက်တွေ့တွင် ကြိုးနှစ်ချောင်းကြား Jaro-Winkler တူညီမှုကို တွက်ချက်နည်းကို ပြသထားသည်။

ဥပမာ- ကြိုးနှစ်ချောင်းကြားရှိ Jaro-Winkler တူညီမှုကို တွက်ချက်ခြင်း။

ကျွန်ုပ်တို့တွင် အောက်ပါစာကြောင်းနှစ်ခုရှိသည်ဆိုပါစို့။

  • ချန်နယ် 1 (s 1 ): မောက်စ်
  • Channel 2 (s 2 ) : အသံတိတ်

ဦးစွာ၊ ဤစာကြောင်းနှစ်ခုကြားရှိ Jaro တူညီမှုကို တွက်ကြည့်ကြပါစို့။

sim j = 1/3 * ( m /|s 1 | + m/|s 2 | + (mt)/m )

ရွှေ-

  • m : ကိုက်ညီသော စာလုံးအရေအတွက်
    • s 1 နှင့် s 2 ၏ စာလုံးနှစ်လုံးသည် တူညီပါက [max(|s 1 |,|s 2 |)/2] – 1 လုံးသည် တစ်ခုနှင့်တစ်ခု တူညီပါက တူညီသည်ဟု ယူဆပါသည်။

ဤအခြေအနေတွင်၊ [max(|s 1 |,|s 2 |)/2] – 1 ကို 5/2 – 1 = 1.5 အဖြစ် တွက်ချက်သည်။ တူညီသော စာလုံးသုံးလုံးကို m၊ u၊ e ဟူ၍ သတ်မှတ်ပါမည်။ ဒီတော့ m = 3

  • |s 1 | , |s 2 | : ပထမ နှင့် ဒုတိယ ကြိုးအရှည် အသီးသီး

ဒီနေရာမှာ |s 1 | = 5 နှင့် |s 1 | = ၄

  • t : ကူးပြောင်းမှုအရေအတွက်
    • တူညီသော အက္ခရာ အရေအတွက် (သို့သော်လည်း ကွဲပြားသော အစီအစဥ် အစီအစဥ် အရ) 2 ဖြင့် တွက်ချက်သည်။

ဤကိစ္စတွင် တူညီသော အက္ခရာသုံးလုံးရှိသော်လည်း ၎င်းတို့သည် တူညီသော sequential order တွင်ရှိပြီးဖြစ်သောကြောင့် t = 0 ဖြစ်သည်။

ထို့ကြောင့် Jaro ၏တူညီမှုကို အောက်ပါအတိုင်း တွက်ချက်ပါမည်။

sim j = 1/3 * (3/5 + 3/4 + (3-0)/3) = 0.78333 ။

ထို့နောက်၊ Jaro-Winkler ဆင်တူယိုးမှား (sim w ) ကို အောက်ပါအတိုင်း တွက်ကြည့်ကြပါစို့။

sim w = sim j + lp(1 – sim j )

ဤကိစ္စတွင်၊ ကျွန်ုပ်တို့တွက်ချက်သည်-

sim w = 0.78333 + (1)*(0.1)(1 – 0.78333) = 0.805။

ကွင်းဆက်နှစ်ခုကြားရှိ Jaro-Winkler တူညီမှုသည် 0.805 ဖြစ်သည်။

ဤတန်ဖိုးသည် 1 နှင့် နီးစပ်သောကြောင့်၊ ၎င်းသည် ကြိုးတန်းနှစ်ခုသည် အလွန်ဆင်တူကြောင်း ကျွန်ုပ်တို့ကိုပြောပြသည်။

R ရှိ စာကြောင်းနှစ်ခုကြားရှိ Jaro-Winkler တူညီမှုကို တွက်ချက်ခြင်းဖြင့် ၎င်းသည် မှန်ကန်ကြောင်း ကျွန်ုပ်တို့ အတည်ပြုနိုင်သည်-

 library (stringdist)

#calculate Jaro-Winkler similarity between 'mouse' and 'mute'
1 - stringdist("mouse", "mute", method = "jw", p= 0.1 )

[1] 0.805

၎င်းသည် ကျွန်ုပ်တို့ကိုယ်တိုင်တွက်ချက်ထားသော တန်ဖိုးနှင့် ကိုက်ညီပါသည်။

ထပ်လောင်းအရင်းအမြစ်များ

အောက်ဖော်ပြပါ သင်ခန်းစာများတွင် အခြားဆင်တူသည့် မက်ထရစ်များကို တွက်ချက်နည်းကို ရှင်းပြထားပါသည်။

Bray-Curtis ကွဲပြားခြင်းအကြောင်း နိဒါန်း
Jaccard ဆင်တူယိုးမှား အညွှန်းကိန်း မိတ်ဆက်

မှတ်ချက်တစ်ခုထည့်ပါ။

သင့် email လိပ်စာကို ဖော်ပြမည် မဟုတ်ပါ။ လိုအပ်သော ကွက်လပ်များကို * ဖြင့်မှတ်သားထားသည်