Просте пояснення індексу подібності жаккара


Індекс подібності Жаккара є показником подібності між двома наборами даних.

Індекс, розроблений Полом Жаккаром , коливається від 0 до 1. Чим ближче до 1, тим схожішими є два набори даних.

Індекс подібності Жаккара розраховується наступним чином:

Подібність Жаккара = (кількість спостережень в обох наборах) / (число в будь-якому наборі)

Або, записане у формі позначення:

J(A, B) = |A∩B| / |A∪B|

Якщо два набори даних мають однакові члени, їхній індекс подібності Жаккара дорівнюватиме 1. І навпаки, якщо вони не мають спільних членів, їх подібність дорівнюватиме 0.

У наступних прикладах показано, як обчислити індекс подібності Жаккара для кількох різних наборів даних.

Приклад 1: Подібність Жаккара

Припустимо, ми маємо наступні два набори даних:

 A = [0, 1, 2, 5, 6, 8, 9]
B = [0, 2, 3, 4, 5, 7, 9]

Щоб обчислити подібність Жаккара між ними, ми спочатку знаходимо загальну кількість спостережень в обох наборах, а потім ділимо на загальну кількість спостережень в кожному наборі:

  • Кількість спостережень в обох: {0, 2, 5, 9} = 4
  • Кількість спостережень у будь-якому з них: {0, 1, 2, 3, 4, 5, 6, 7, 8, 9} = 10
  • Подібність Жаккарда: 4/10 = 0,4

Індекс подібності Жаккара виявляється рівним 0,4 .

Приклад 2: Подібність Жаккара (продовження)

Припустимо, ми маємо наступні два набори даних:

 C = [0, 1, 2, 3, 4, 5]
D = [6, 7, 8, 9, 10]

Щоб обчислити подібність Жаккара між ними, ми спочатку знаходимо загальну кількість спостережень в обох наборах, а потім ділимо на загальну кількість спостережень в кожному наборі:

  • Кількість спостережень в обох: {} = 0
  • Кількість спостережень у будь-якому з них: {0, 1, 2, 3, 4, 5, 6, 7, 8, 9, 10} = 11
  • Подібність Жаккарда: 0/11 = 0

Індекс подібності Жаккара виявляється рівним 0 . Це означає, що два набори даних не мають спільних членів.

Приклад 3: Жаккардова схожість символів

Зауважте, що ми також можемо використовувати індекс подібності Жаккара для наборів даних, які містять символи, а не числа.

Наприклад, припустімо, що ми маємо такі два набори даних:

 E = ['cat', 'dog', 'hippo', 'monkey']
F = ['monkey', 'rhino', 'ostrich', 'salmon']

Щоб обчислити подібність Жаккара між ними, ми спочатку знаходимо загальну кількість спостережень в обох наборах, а потім ділимо на загальну кількість спостережень в кожному наборі:

  • Кількість спостережень в обох: {‘mavpe’} = 1
  • Кількість спостережень в одному чи іншому: {‘cat’, ‘dog’, hippopotamus’, ‘monkey’, ‘rhino’, ‘straus’, ‘losos’} = 7
  • Подібність Жаккарда: 1/7 = 0,142857

Індекс подібності Жаккара виявляється рівним 0,142857 . Оскільки це число досить низьке, це означає, що ці два набори досить різні.

Відстань Жаккара

Відстань Жаккара вимірює різницю між двома наборами даних і обчислюється таким чином:

Відстань Жаккарда = 1 – Подібність Жаккарда

Це вимірювання дає нам уявлення про те, наскільки різні два набори даних або наскільки вони різні .

Наприклад, якщо два набори даних мають подібність Жаккара на 80%, то вони матимуть відстань Жаккара 1–0,8 = 0,2 або 20%.

Додаткові ресурси

У наступних посібниках пояснюється, як обчислити подібність Жаккара за допомогою іншого статистичного програмного забезпечення:

Як обчислити подібність Жаккара в R
Як розрахувати подібність Jaccard у Python

Додати коментар

Ваша e-mail адреса не оприлюднюватиметься. Обов’язкові поля позначені *