Простое объяснение индекса сходства жаккара
Индекс сходства Жаккара — это мера сходства между двумя наборами данных.
Индекс, разработанный Полем Жаккаром , варьируется от 0 до 1. Чем ближе он к 1, тем более похожи два набора данных.
Индекс сходства Жаккара рассчитывается следующим образом:
Сходство Жаккара = (количество наблюдений в обоих наборах) / (количество в любом наборе)
Или, записанный в форме обозначений:
J(А, В) = |А∩В| / |А∪В|
Если два набора данных имеют одни и те же элементы, их индекс сходства Жаккара будет равен 1. И наоборот, если у них нет общих элементов, их сходство будет равно 0.
В следующих примерах показано, как рассчитать индекс сходства Жаккара для нескольких разных наборов данных.
Пример 1: Сходство Жаккара
Предположим, у нас есть следующие два набора данных:
A = [0, 1, 2, 5, 6, 8, 9] B = [0, 2, 3, 4, 5, 7, 9]
Чтобы вычислить сходство Жаккара между ними, мы сначала находим общее количество наблюдений в обоих наборах, а затем делим на общее количество наблюдений в любом наборе:
- Количество наблюдений в обоих случаях: {0, 2, 5, 9} = 4
- Количество наблюдений в любом из следующих вариантов: {0, 1, 2, 3, 4, 5, 6, 7, 8, 9} = 10.
- Сходство Жаккара: 4/10 = 0,4.
Индекс сходства Жаккара оказывается равным 0,4 .
Пример 2: Сходство Жаккара (продолжение)
Предположим, у нас есть следующие два набора данных:
C = [0, 1, 2, 3, 4, 5] D = [6, 7, 8, 9, 10]
Чтобы вычислить сходство Жаккара между ними, мы сначала находим общее количество наблюдений в обоих наборах, а затем делим на общее количество наблюдений в любом наборе:
- Количество наблюдений в обоих случаях: {} = 0
- Количество наблюдений в любом из следующих вариантов: {0, 1, 2, 3, 4, 5, 6, 7, 8, 9, 10} = 11.
- Сходство Жаккара: 0/11 = 0
Индекс сходства Жаккара оказывается равным 0 . Это указывает на то, что эти два набора данных не имеют общих элементов.
Пример 3: Сходство персонажей по Жаккару
Обратите внимание, что мы также можем использовать индекс сходства Жаккара для наборов данных, содержащих символы, а не числа.
Например, предположим, что у нас есть следующие два набора данных:
E = ['cat', 'dog', 'hippo', 'monkey'] F = ['monkey', 'rhino', 'ostrich', 'salmon']
Чтобы вычислить сходство Жаккара между ними, мы сначала находим общее количество наблюдений в обоих наборах, а затем делим на общее количество наблюдений в любом наборе:
- Количество наблюдений в обоих случаях: {‘monkey’} = 1
- Количество наблюдений в одном или другом: {‘кошка’, ‘собака’, бегемот’, ‘обезьяна’, ‘носорог’, ‘страус’, ‘лосось’} = 7
- Сходство Жаккара: 1/7 = 0,142857
Индекс сходства Жаккара оказывается равным 0,142857 . Поскольку это число довольно мало, это указывает на то, что эти два набора сильно различаются.
Расстояние Жаккара
Расстояние Жаккара измеряет различие между двумя наборами данных и рассчитывается следующим образом:
Расстояние Жаккара = 1 – сходство Жаккара
Это измерение дает нам представление о том, насколько различаются два набора данных или насколько они различны .
Например, если два набора данных имеют сходство Жаккара 80 %, то расстояние Жаккара у них будет 1 – 0,8 = 0,2 или 20 %.
Дополнительные ресурсы
В следующих руководствах объясняется, как рассчитать сходство Жаккара с использованием различных статистических программ:
Как рассчитать сходство Жаккара в R
Как рассчитать сходство Жаккара в Python