Proste wyjaśnienie wskaźnika podobieństwa jaccarda
Indeks podobieństwa Jaccarda jest miarą podobieństwa między dwoma zbiorami danych.
Opracowany przez Paula Jaccarda indeks ma zakres od 0 do 1. Im jest on bliższy 1, tym bardziej podobne są oba zbiory danych.
Wskaźnik podobieństwa Jaccarda oblicza się w następujący sposób:
Podobieństwo Jaccarda = (liczba obserwacji w obu zbiorach) / (liczba w każdym zbiorze)
Lub zapisane w formie notacji:
J(A, B) = |A∩B| / |A∪B|
Jeśli dwa zbiory danych mają dokładnie te same elementy, ich indeks podobieństwa Jaccarda wyniesie 1. I odwrotnie, jeśli nie mają wspólnych elementów, ich podobieństwo wyniesie 0.
Poniższe przykłady pokazują, jak obliczyć wskaźnik podobieństwa Jaccarda dla kilku różnych zbiorów danych.
Przykład 1: Podobieństwo Jaccarda
Załóżmy, że mamy następujące dwa zestawy danych:
A = [0, 1, 2, 5, 6, 8, 9] B = [0, 2, 3, 4, 5, 7, 9]
Aby obliczyć podobieństwo Jaccarda między nimi, najpierw znajdujemy całkowitą liczbę obserwacji w obu zbiorach, a następnie dzielimy przez całkowitą liczbę obserwacji w każdym zbiorze:
- Liczba obserwacji w obu przypadkach: {0, 2, 5, 9} = 4
- Liczba obserwacji w którymkolwiek: {0, 1, 2, 3, 4, 5, 6, 7, 8, 9} = 10
- Podobieństwo Jaccarda: 4/10 = 0,4
Indeks podobieństwa Jaccarda wynosi 0,4 .
Przykład 2: Podobieństwo Jaccarda (ciąg dalszy)
Załóżmy, że mamy następujące dwa zestawy danych:
C = [0, 1, 2, 3, 4, 5] D = [6, 7, 8, 9, 10]
Aby obliczyć podobieństwo Jaccarda między nimi, najpierw znajdujemy całkowitą liczbę obserwacji w obu zbiorach, a następnie dzielimy przez całkowitą liczbę obserwacji w każdym zbiorze:
- Liczba obserwacji w obu przypadkach: {} = 0
- Liczba obserwacji w którymkolwiek: {0, 1, 2, 3, 4, 5, 6, 7, 8, 9, 10} = 11
- Podobieństwo Jaccarda: 0/11 = 0
Indeks podobieństwa Jaccarda okazuje się wynosić 0 . Oznacza to, że oba zbiory danych nie mają wspólnych elementów członkowskich.
Przykład 3: Podobieństwo Jaccarda dla postaci
Należy pamiętać, że indeksu podobieństwa Jaccarda możemy także używać w przypadku zbiorów danych zawierających znaki, a nie liczby.
Załóżmy na przykład, że mamy następujące dwa zestawy danych:
E = ['cat', 'dog', 'hippo', 'monkey'] F = ['monkey', 'rhino', 'ostrich', 'salmon']
Aby obliczyć podobieństwo Jaccarda między nimi, najpierw znajdujemy całkowitą liczbę obserwacji w obu zbiorach, a następnie dzielimy przez całkowitą liczbę obserwacji w każdym zbiorze:
- Liczba obserwacji w obu przypadkach: {’małpa’} = 1
- Liczba obserwacji w jednym lub drugim: {’kot’, 'pies’, hipopotam’, 'małpa’, 'nosorożec’, 'struś’, 'łosoś’} = 7
- Podobieństwo Jaccarda: 1/7 = 0,142857
Indeks podobieństwa Jaccarda wynosi 0,142857 . Liczba ta jest dość niska, co oznacza, że te dwa zestawy są zupełnie różne.
Odległość Jaccarda
Odległość Jaccarda mierzy odmienność między dwoma zbiorami danych i jest obliczana w następujący sposób:
Odległość Jaccarda = 1 – Podobieństwo Jaccarda
Pomiar ten daje nam wyobrażenie o tym, jak różne są dwa zestawy danych lub jak bardzo się różnią .
Na przykład, jeśli dwa zbiory danych mają podobieństwo Jaccarda wynoszące 80%, wówczas odległość Jaccarda będzie wynosić 1 – 0,8 = 0,2 lub 20%.
Dodatkowe zasoby
Poniższe samouczki wyjaśniają, jak obliczyć podobieństwo Jaccarda przy użyciu różnych programów statystycznych:
Jak obliczyć podobieństwo Jaccarda w R
Jak obliczyć podobieństwo Jaccarda w Pythonie