Jaccard တူညီမှုအညွှန်းကိန်း၏ရိုးရှင်းသောရှင်းလင်းချက်
Jaccard ဆင်တူယိုးမှား အညွှန်းကိန်း သည် ဒေတာအတွဲနှစ်ခုကြားရှိ တူညီမှုအတိုင်းအတာတစ်ခုဖြစ်သည်။
Paul Jaccard မှတီထွင်သော အညွှန်းကိန်းသည် 0 မှ 1 အထိရှိသည်။ ၎င်းသည် 1 နှင့် ပိုနီးစပ်လေ၊ ဒေတာအတွဲနှစ်ခုသည် ပို၍ဆင်တူလေဖြစ်သည်။
Jaccard ဆင်တူယိုးမှား အညွှန်းကိန်းကို အောက်ပါအတိုင်း တွက်ချက်ပါသည်။
Jaccard ဆင်တူယိုးမှား = (အတွဲနှစ်ခုစလုံးတွင် လေ့လာတွေ့ရှိချက်အရေအတွက်) / (တစ်စုံတစ်ခုအတွက် အရေအတွက်)
သို့မဟုတ် အမှတ်အသားပုံစံဖြင့် ရေးထားသည်-
J(A၊ B) = |A∩B| / |A∪B|
ဒေတာအတွဲနှစ်ခုသည် အတိအကျတူညီသောအဖွဲ့ဝင်များကို မျှဝေပါက ၎င်းတို့၏ Jaccard ဆင်တူယိုးမှားအညွှန်းကိန်းသည် 1 ဖြစ်လိမ့်မည်။ အပြန်အလှန်အားဖြင့်၊ ၎င်းတို့တွင် တူညီသောအဖွဲ့ဝင်များမရှိပါက ၎င်းတို့၏တူညီမှုသည် 0 ဖြစ်လိမ့်မည်။
အောက်ပါဥပမာများသည် မတူညီသောဒေတာအတွဲများအတွက် Jaccard ဆင်တူယိုးမှားအညွှန်းကိန်းကို တွက်ချက်နည်းကိုပြသထားသည်။
ဥပမာ 1- Jaccard တူညီမှု
ကျွန်ုပ်တို့တွင် အောက်ပါဒေတာ နှစ်စုံရှိသည်ဆိုပါစို့။
A = [0, 1, 2, 5, 6, 8, 9] B = [0, 2, 3, 4, 5, 7, 9]
၎င်းတို့ကြားရှိ Jaccard တူညီမှုကို တွက်ချက်ရန်၊ အတွဲနှစ်ခုစလုံးတွင် လေ့လာမှုစုစုပေါင်းအရေအတွက်ကို ဦးစွာရှာဖွေပြီးနောက် နှစ်ခုစလုံးတွင် လေ့လာမှုစုစုပေါင်းအရေအတွက်ဖြင့် ပိုင်းခြားပါ။
- နှစ်ခုစလုံးအတွက် လေ့လာတွေ့ရှိချက်အရေအတွက်- {0၊ 2၊ 5၊ 9} = 4
- နှစ်ခုစလုံးတွင် လေ့လာတွေ့ရှိချက်အရေအတွက်- {0၊ 1၊ 2၊ 3၊ 4၊ 5၊ 6၊ 7၊ 8၊ 9} = 10
- Jaccard တူညီမှု- 4/10 = 0.4
Jaccard ဆင်တူယိုးမှား အညွှန်းကိန်းသည် 0.4 ဖြစ်လာသည်။
ဥပမာ 2- Jaccard တူညီမှု (ဆက်ရန်)
ကျွန်ုပ်တို့တွင် အောက်ပါဒေတာ နှစ်စုံရှိသည်ဆိုပါစို့။
C = [0, 1, 2, 3, 4, 5] D = [6, 7, 8, 9, 10]
၎င်းတို့ကြားရှိ Jaccard တူညီမှုကို တွက်ချက်ရန်၊ အတွဲနှစ်ခုစလုံးတွင် လေ့လာမှုစုစုပေါင်းအရေအတွက်ကို ဦးစွာရှာဖွေပြီးနောက် နှစ်ခုစလုံးတွင် လေ့လာမှုစုစုပေါင်းအရေအတွက်ဖြင့် ပိုင်းခြားပါ။
- နှစ်ခုစလုံးအတွက် လေ့လာတွေ့ရှိချက်အရေအတွက်- {} = 0
- နှစ်ခုစလုံးတွင် လေ့လာတွေ့ရှိချက်အရေအတွက်- {0၊ 1၊ 2၊ 3၊ 4၊ 5၊ 6၊ 7၊ 8၊ 9၊ 10} = 11
- Jaccard ဆင်တူယိုးမှား: 0/11 = 0
Jaccard ဆင်တူယိုးမှား အညွှန်းကိန်းသည် 0 ဖြစ်သည် ။ ၎င်းသည် ဒေတာအတွဲနှစ်ခုသည် ဘုံအဖွဲ့ဝင်များကိုမျှ မမျှဝေကြောင်း ညွှန်ပြသည်။
ဥပမာ 3- ဇာတ်ကောင်များအတွက် Jaccard တူညီခြင်း။
နံပါတ်များထက် အက္ခရာများပါရှိသော ဒေတာအတွဲများအတွက် Jaccard ဆင်တူယိုးမှားအညွှန်းကိုလည်း အသုံးပြုနိုင်ကြောင်း သတိပြုပါ။
ဥပမာအားဖြင့်၊ ကျွန်ုပ်တို့တွင် အောက်ပါဒေတာနှစ်စုံရှိသည်ဆိုပါစို့။
E = ['cat', 'dog', 'hippo', 'monkey'] F = ['monkey', 'rhino', 'ostrich', 'salmon']
၎င်းတို့ကြားရှိ Jaccard တူညီမှုကို တွက်ချက်ရန်၊ အတွဲနှစ်ခုစလုံးတွင် လေ့လာမှုစုစုပေါင်းအရေအတွက်ကို ဦးစွာရှာဖွေပြီးနောက် နှစ်ခုစလုံးတွင် လေ့လာမှုစုစုပေါင်းအရေအတွက်ဖြင့် ပိုင်းခြားပါ။
- နှစ်ခုစလုံးအတွက် လေ့လာတွေ့ရှိချက်အရေအတွက်- {‘monkey’} = 1
- တစ်ခု သို့မဟုတ် အခြားတစ်ခုတွင် လေ့လာတွေ့ရှိချက်အရေအတွက်- {‘cat’၊ ‘dog’, hippopotamus’, ‘monkey’, ‘rhino’, ‘ostrich’, ‘salmon’} = 7
- Jaccard တူညီမှု- 1/7 = 0.142857
Jaccard ဆင်တူယိုးမှား အညွှန်းကိန်းသည် 0.142857 ဖြစ်လာသည်။ ဤအရေအတွက်သည် အလွန်နည်းသောကြောင့် အတွဲနှစ်ခုသည် အလွန်ကွာခြားကြောင်း ညွှန်ပြသည်။
Jaccard အကွာအဝေး
Jaccard အကွာအဝေးသည် ဒေတာအတွဲနှစ်ခုကြား တူညီမှုကို တိုင်းတာပြီး အောက်ပါအတိုင်း တွက်ချက်သည်-
Jaccard အကွာအဝေး = 1 – Jaccard တူညီမှု
ဤတိုင်းတာမှုသည် ကျွန်ုပ်တို့အား ဒေတာနှစ်စုံမည်မျှ ကွဲပြားသည် သို့မဟုတ် ၎င်းတို့သည် မည်ကဲ့သို့ ကွဲပြား သည်ကို အကြံဥာဏ်ပေးသည်။
ဥပမာအားဖြင့်၊ ဒေတာအတွဲနှစ်ခုတွင် Jaccard တူညီမှု 80% ရှိပါက ၎င်းတို့တွင် Jaccard အကွာအဝေးသည် 1 – 0.8 = 0.2 သို့မဟုတ် 20% ရှိမည်ဖြစ်သည်။
ထပ်လောင်းအရင်းအမြစ်များ
အောက်ဖော်ပြပါ သင်ခန်းစာများသည် မတူညီသော ကိန်းဂဏန်းဆိုင်ရာဆော့ဖ်ဝဲကို အသုံးပြု၍ Jaccard တူညီမှုကို တွက်ချက်နည်းကို ရှင်းပြသည်-
R တွင် Jaccard တူညီမှုကို တွက်နည်း
Python တွင် Jaccard တူညီမှုကို တွက်ချက်နည်း