Просте пояснення індексу подібності жаккара
Індекс подібності Жаккара є показником подібності між двома наборами даних.
Індекс, розроблений Полом Жаккаром , коливається від 0 до 1. Чим ближче до 1, тим схожішими є два набори даних.
Індекс подібності Жаккара розраховується наступним чином:
Подібність Жаккара = (кількість спостережень в обох наборах) / (число в будь-якому наборі)
Або, записане у формі позначення:
J(A, B) = |A∩B| / |A∪B|
Якщо два набори даних мають однакові члени, їхній індекс подібності Жаккара дорівнюватиме 1. І навпаки, якщо вони не мають спільних членів, їх подібність дорівнюватиме 0.
У наступних прикладах показано, як обчислити індекс подібності Жаккара для кількох різних наборів даних.
Приклад 1: Подібність Жаккара
Припустимо, ми маємо наступні два набори даних:
A = [0, 1, 2, 5, 6, 8, 9] B = [0, 2, 3, 4, 5, 7, 9]
Щоб обчислити подібність Жаккара між ними, ми спочатку знаходимо загальну кількість спостережень в обох наборах, а потім ділимо на загальну кількість спостережень в кожному наборі:
- Кількість спостережень в обох: {0, 2, 5, 9} = 4
- Кількість спостережень у будь-якому з них: {0, 1, 2, 3, 4, 5, 6, 7, 8, 9} = 10
- Подібність Жаккарда: 4/10 = 0,4
Індекс подібності Жаккара виявляється рівним 0,4 .
Приклад 2: Подібність Жаккара (продовження)
Припустимо, ми маємо наступні два набори даних:
C = [0, 1, 2, 3, 4, 5] D = [6, 7, 8, 9, 10]
Щоб обчислити подібність Жаккара між ними, ми спочатку знаходимо загальну кількість спостережень в обох наборах, а потім ділимо на загальну кількість спостережень в кожному наборі:
- Кількість спостережень в обох: {} = 0
- Кількість спостережень у будь-якому з них: {0, 1, 2, 3, 4, 5, 6, 7, 8, 9, 10} = 11
- Подібність Жаккарда: 0/11 = 0
Індекс подібності Жаккара виявляється рівним 0 . Це означає, що два набори даних не мають спільних членів.
Приклад 3: Жаккардова схожість символів
Зауважте, що ми також можемо використовувати індекс подібності Жаккара для наборів даних, які містять символи, а не числа.
Наприклад, припустімо, що ми маємо такі два набори даних:
E = ['cat', 'dog', 'hippo', 'monkey'] F = ['monkey', 'rhino', 'ostrich', 'salmon']
Щоб обчислити подібність Жаккара між ними, ми спочатку знаходимо загальну кількість спостережень в обох наборах, а потім ділимо на загальну кількість спостережень в кожному наборі:
- Кількість спостережень в обох: {‘mavpe’} = 1
- Кількість спостережень в одному чи іншому: {‘cat’, ‘dog’, hippopotamus’, ‘monkey’, ‘rhino’, ‘straus’, ‘losos’} = 7
- Подібність Жаккарда: 1/7 = 0,142857
Індекс подібності Жаккара виявляється рівним 0,142857 . Оскільки це число досить низьке, це означає, що ці два набори досить різні.
Відстань Жаккара
Відстань Жаккара вимірює різницю між двома наборами даних і обчислюється таким чином:
Відстань Жаккарда = 1 – Подібність Жаккарда
Це вимірювання дає нам уявлення про те, наскільки різні два набори даних або наскільки вони різні .
Наприклад, якщо два набори даних мають подібність Жаккара на 80%, то вони матимуть відстань Жаккара 1–0,8 = 0,2 або 20%.
Додаткові ресурси
У наступних посібниках пояснюється, як обчислити подібність Жаккара за допомогою іншого статистичного програмного забезпечення:
Як обчислити подібність Жаккара в R
Як розрахувати подібність Jaccard у Python