Простое объяснение индекса сходства жаккара


Индекс сходства Жаккара — это мера сходства между двумя наборами данных.

Индекс, разработанный Полем Жаккаром , варьируется от 0 до 1. Чем ближе он к 1, тем более похожи два набора данных.

Индекс сходства Жаккара рассчитывается следующим образом:

Сходство Жаккара = (количество наблюдений в обоих наборах) / (количество в любом наборе)

Или, записанный в форме обозначений:

J(А, В) = |А∩В| / |А∪В|

Если два набора данных имеют одни и те же элементы, их индекс сходства Жаккара будет равен 1. И наоборот, если у них нет общих элементов, их сходство будет равно 0.

В следующих примерах показано, как рассчитать индекс сходства Жаккара для нескольких разных наборов данных.

Пример 1: Сходство Жаккара

Предположим, у нас есть следующие два набора данных:

 A = [0, 1, 2, 5, 6, 8, 9]
B = [0, 2, 3, 4, 5, 7, 9]

Чтобы вычислить сходство Жаккара между ними, мы сначала находим общее количество наблюдений в обоих наборах, а затем делим на общее количество наблюдений в любом наборе:

  • Количество наблюдений в обоих случаях: {0, 2, 5, 9} = 4
  • Количество наблюдений в любом из следующих вариантов: {0, 1, 2, 3, 4, 5, 6, 7, 8, 9} = 10.
  • Сходство Жаккара: 4/10 = 0,4.

Индекс сходства Жаккара оказывается равным 0,4 .

Пример 2: Сходство Жаккара (продолжение)

Предположим, у нас есть следующие два набора данных:

 C = [0, 1, 2, 3, 4, 5]
D = [6, 7, 8, 9, 10]

Чтобы вычислить сходство Жаккара между ними, мы сначала находим общее количество наблюдений в обоих наборах, а затем делим на общее количество наблюдений в любом наборе:

  • Количество наблюдений в обоих случаях: {} = 0
  • Количество наблюдений в любом из следующих вариантов: {0, 1, 2, 3, 4, 5, 6, 7, 8, 9, 10} = 11.
  • Сходство Жаккара: 0/11 = 0

Индекс сходства Жаккара оказывается равным 0 . Это указывает на то, что эти два набора данных не имеют общих элементов.

Пример 3: Сходство персонажей по Жаккару

Обратите внимание, что мы также можем использовать индекс сходства Жаккара для наборов данных, содержащих символы, а не числа.

Например, предположим, что у нас есть следующие два набора данных:

 E = ['cat', 'dog', 'hippo', 'monkey']
F = ['monkey', 'rhino', 'ostrich', 'salmon']

Чтобы вычислить сходство Жаккара между ними, мы сначала находим общее количество наблюдений в обоих наборах, а затем делим на общее количество наблюдений в любом наборе:

  • Количество наблюдений в обоих случаях: {‘monkey’} = 1
  • Количество наблюдений в одном или другом: {‘кошка’, ‘собака’, бегемот’, ‘обезьяна’, ‘носорог’, ‘страус’, ‘лосось’} = 7
  • Сходство Жаккара: 1/7 = 0,142857

Индекс сходства Жаккара оказывается равным 0,142857 . Поскольку это число довольно мало, это указывает на то, что эти два набора сильно различаются.

Расстояние Жаккара

Расстояние Жаккара измеряет различие между двумя наборами данных и рассчитывается следующим образом:

Расстояние Жаккара = 1 – сходство Жаккара

Это измерение дает нам представление о том, насколько различаются два набора данных или насколько они различны .

Например, если два набора данных имеют сходство Жаккара 80 %, то расстояние Жаккара у них будет 1 – 0,8 = 0,2 или 20 %.

Дополнительные ресурсы

В следующих руководствах объясняется, как рассчитать сходство Жаккара с использованием различных статистических программ:

Как рассчитать сходство Жаккара в R
Как рассчитать сходство Жаккара в Python

Добавить комментарий

Ваш адрес email не будет опубликован. Обязательные поля помечены *