شرح بسيط لمؤشر تشابه جاكارد
يعد مؤشر تشابه Jaccard مقياسًا للتشابه بين مجموعتي بيانات.
يتراوح المؤشر الذي طوره بول جاكارد من 0 إلى 1. وكلما اقترب من 1، كلما كانت مجموعتي البيانات أكثر تشابهًا.
يتم حساب مؤشر تشابه Jaccard على النحو التالي:
تشابه جاكارد = (عدد الملاحظات في كلتا المجموعتين) / (الرقم في أي من المجموعتين)
أو تكتب على شكل ملاحظة:
ي(أ، ب) = |أ∩ب| / |أ∪ب|
إذا كانت مجموعتا البيانات تشتركان في نفس الأعضاء تمامًا، فسيكون مؤشر تشابه Jaccard الخاص بهما هو 1. وعلى العكس من ذلك، إذا لم يكن لديهما أعضاء مشتركين، فسيكون تشابههما 0.
توضح الأمثلة التالية كيفية حساب مؤشر تشابه Jaccard لعدد قليل من مجموعات البيانات المختلفة.
مثال 1: تشابه جاكارد
لنفترض أن لدينا مجموعتين من البيانات التالية:
A = [0, 1, 2, 5, 6, 8, 9] B = [0, 2, 3, 4, 5, 7, 9]
لحساب تشابه جاكارد بينهما، نجد أولاً إجمالي عدد الملاحظات في كلتا المجموعتين، ثم نقسمها على إجمالي عدد الملاحظات في أي من المجموعتين:
- عدد الملاحظات في كليهما: {0، 2، 5، 9} = 4
- عدد الملاحظات في أي منهما: {0، 1، 2، 3، 4، 5، 6، 7، 8، 9} = 10
- تشابه جاكارد: 4/10 = 0.4
تبين أن مؤشر تشابه Jaccard هو 0.4 .
مثال 2: تشابه جاكارد (تابع)
لنفترض أن لدينا مجموعتين من البيانات التالية:
C = [0, 1, 2, 3, 4, 5] D = [6, 7, 8, 9, 10]
لحساب تشابه جاكارد بينهما، نجد أولاً إجمالي عدد الملاحظات في كلتا المجموعتين، ثم نقسمها على إجمالي عدد الملاحظات في أي من المجموعتين:
- عدد الملاحظات في كليهما: {} = 0
- عدد الملاحظات في أي منهما: {0، 1، 2، 3، 4، 5، 6، 7، 8، 9، 10} = 11
- تشابه جاكارد: 0/11 = 0
تبين أن مؤشر تشابه Jaccard هو 0 . يشير هذا إلى أن مجموعتي البيانات لا تشتركان في أي أعضاء مشتركين.
مثال 3: تشابه جاكارد للشخصيات
لاحظ أنه يمكننا أيضًا استخدام مؤشر تشابه Jaccard لمجموعات البيانات التي تحتوي على أحرف بدلاً من الأرقام.
على سبيل المثال، لنفترض أن لدينا مجموعتين من البيانات التالية:
E = ['cat', 'dog', 'hippo', 'monkey'] F = ['monkey', 'rhino', 'ostrich', 'salmon']
لحساب تشابه جاكارد بينهما، نجد أولاً إجمالي عدد الملاحظات في كلتا المجموعتين، ثم نقسمها على إجمالي عدد الملاحظات في أي من المجموعتين:
- عدد الملاحظات في كليهما: {‘monkey’} = 1
- عدد الملاحظات في واحدة أو أخرى: {‘قطة’، ‘كلب’، فرس النهر’، ‘قرد’، ‘وحيد القرن’، ‘نعامة’، ‘سلمون’} = 7
- تشابه جاكارد: 1/7 = 0.142857
تبين أن مؤشر تشابه Jaccard هو 0.142857 . وبما أن هذا الرقم منخفض جدًا، فهذا يشير إلى أن المجموعتين مختلفتان تمامًا.
مسافة جاكارد
تقيس مسافة Jaccard الاختلاف بين مجموعتي بيانات ويتم حسابها على النحو التالي:
مسافة الجاكار = 1 – تشابه الجاكار
يمنحنا هذا القياس فكرة عن مدى اختلاف مجموعتين من البيانات أو مدى اختلافهما .
على سبيل المثال، إذا كانت مجموعتي بيانات لديهما تشابه Jaccard بنسبة 80%، فستكون مسافة Jaccard لهما 1 – 0.8 = 0.2 أو 20%.
مصادر إضافية
تشرح البرامج التعليمية التالية كيفية حساب تشابه Jaccard باستخدام برامج إحصائية مختلفة:
كيفية حساب تشابه جاكارد في R
كيفية حساب تشابه جاكارد في بايثون