Proste wyjaśnienie wskaźnika podobieństwa jaccarda


Indeks podobieństwa Jaccarda jest miarą podobieństwa między dwoma zbiorami danych.

Opracowany przez Paula Jaccarda indeks ma zakres od 0 do 1. Im jest on bliższy 1, tym bardziej podobne są oba zbiory danych.

Wskaźnik podobieństwa Jaccarda oblicza się w następujący sposób:

Podobieństwo Jaccarda = (liczba obserwacji w obu zbiorach) / (liczba w każdym zbiorze)

Lub zapisane w formie notacji:

J(A, B) = |A∩B| / |A∪B|

Jeśli dwa zbiory danych mają dokładnie te same elementy, ich indeks podobieństwa Jaccarda wyniesie 1. I odwrotnie, jeśli nie mają wspólnych elementów, ich podobieństwo wyniesie 0.

Poniższe przykłady pokazują, jak obliczyć wskaźnik podobieństwa Jaccarda dla kilku różnych zbiorów danych.

Przykład 1: Podobieństwo Jaccarda

Załóżmy, że mamy następujące dwa zestawy danych:

 A = [0, 1, 2, 5, 6, 8, 9]
B = [0, 2, 3, 4, 5, 7, 9]

Aby obliczyć podobieństwo Jaccarda między nimi, najpierw znajdujemy całkowitą liczbę obserwacji w obu zbiorach, a następnie dzielimy przez całkowitą liczbę obserwacji w każdym zbiorze:

  • Liczba obserwacji w obu przypadkach: {0, 2, 5, 9} = 4
  • Liczba obserwacji w którymkolwiek: {0, 1, 2, 3, 4, 5, 6, 7, 8, 9} = 10
  • Podobieństwo Jaccarda: 4/10 = 0,4

Indeks podobieństwa Jaccarda wynosi 0,4 .

Przykład 2: Podobieństwo Jaccarda (ciąg dalszy)

Załóżmy, że mamy następujące dwa zestawy danych:

 C = [0, 1, 2, 3, 4, 5]
D = [6, 7, 8, 9, 10]

Aby obliczyć podobieństwo Jaccarda między nimi, najpierw znajdujemy całkowitą liczbę obserwacji w obu zbiorach, a następnie dzielimy przez całkowitą liczbę obserwacji w każdym zbiorze:

  • Liczba obserwacji w obu przypadkach: {} = 0
  • Liczba obserwacji w którymkolwiek: {0, 1, 2, 3, 4, 5, 6, 7, 8, 9, 10} = 11
  • Podobieństwo Jaccarda: 0/11 = 0

Indeks podobieństwa Jaccarda okazuje się wynosić 0 . Oznacza to, że oba zbiory danych nie mają wspólnych elementów członkowskich.

Przykład 3: Podobieństwo Jaccarda dla postaci

Należy pamiętać, że indeksu podobieństwa Jaccarda możemy także używać w przypadku zbiorów danych zawierających znaki, a nie liczby.

Załóżmy na przykład, że mamy następujące dwa zestawy danych:

 E = ['cat', 'dog', 'hippo', 'monkey']
F = ['monkey', 'rhino', 'ostrich', 'salmon']

Aby obliczyć podobieństwo Jaccarda między nimi, najpierw znajdujemy całkowitą liczbę obserwacji w obu zbiorach, a następnie dzielimy przez całkowitą liczbę obserwacji w każdym zbiorze:

  • Liczba obserwacji w obu przypadkach: {’małpa’} = 1
  • Liczba obserwacji w jednym lub drugim: {’kot’, 'pies’, hipopotam’, 'małpa’, 'nosorożec’, 'struś’, 'łosoś’} = 7
  • Podobieństwo Jaccarda: 1/7 = 0,142857

Indeks podobieństwa Jaccarda wynosi 0,142857 . Liczba ta jest dość niska, co oznacza, że te dwa zestawy są zupełnie różne.

Odległość Jaccarda

Odległość Jaccarda mierzy odmienność między dwoma zbiorami danych i jest obliczana w następujący sposób:

Odległość Jaccarda = 1 – Podobieństwo Jaccarda

Pomiar ten daje nam wyobrażenie o tym, jak różne są dwa zestawy danych lub jak bardzo się różnią .

Na przykład, jeśli dwa zbiory danych mają podobieństwo Jaccarda wynoszące 80%, wówczas odległość Jaccarda będzie wynosić 1 – 0,8 = 0,2 lub 20%.

Dodatkowe zasoby

Poniższe samouczki wyjaśniają, jak obliczyć podobieństwo Jaccarda przy użyciu różnych programów statystycznych:

Jak obliczyć podobieństwo Jaccarda w R
Jak obliczyć podobieństwo Jaccarda w Pythonie

Dodaj komentarz

Twój adres e-mail nie zostanie opublikowany. Wymagane pola są oznaczone *