Una semplice spiegazione dell'indice di somiglianza di jaccard
L’ indice di somiglianza Jaccard è una misura della somiglianza tra due set di dati.
Sviluppato da Paul Jaccard , l’indice varia da 0 a 1. Quanto più si avvicina a 1, tanto più simili sono i due set di dati.
L’indice di somiglianza di Jaccard è calcolato come segue:
Somiglianza di Jaccard = (numero di osservazioni in entrambi gli insiemi) / (numero in entrambi gli insiemi)
Oppure, scritto in forma di notazione:
J(A, B) = |A∩B| / |A∪B|
Se due set di dati condividono esattamente gli stessi membri, il loro indice di somiglianza Jaccard sarà 1. Al contrario, se non hanno membri in comune, la loro somiglianza sarà 0.
Gli esempi seguenti mostrano come calcolare l’indice di somiglianza Jaccard per alcuni set di dati diversi.
Esempio 1: somiglianza con Jaccard
Supponiamo di avere i seguenti due insiemi di dati:
A = [0, 1, 2, 5, 6, 8, 9] B = [0, 2, 3, 4, 5, 7, 9]
Per calcolare la somiglianza di Jaccard tra loro, troviamo prima il numero totale di osservazioni in entrambi gli insiemi, quindi dividiamo per il numero totale di osservazioni in entrambi gli insiemi:
- Numero di osservazioni in entrambi: {0, 2, 5, 9} = 4
- Numero di osservazioni in entrambi: {0, 1, 2, 3, 4, 5, 6, 7, 8, 9} = 10
- Somiglianza con Jaccard: 4/10 = 0,4
L’indice di somiglianza di Jaccard risulta essere 0,4 .
Esempio 2: somiglianza con Jaccard (continua)
Supponiamo di avere i seguenti due insiemi di dati:
C = [0, 1, 2, 3, 4, 5] D = [6, 7, 8, 9, 10]
Per calcolare la somiglianza di Jaccard tra loro, troviamo prima il numero totale di osservazioni in entrambi gli insiemi, quindi dividiamo per il numero totale di osservazioni in entrambi gli insiemi:
- Numero di osservazioni in entrambi: {} = 0
- Numero di osservazioni in entrambi: {0, 1, 2, 3, 4, 5, 6, 7, 8, 9, 10} = 11
- Somiglianza con Jaccard: 0/11 = 0
L’indice di somiglianza di Jaccard risulta essere 0 . Ciò indica che i due set di dati non condividono alcun membro comune.
Esempio 3: somiglianza di Jaccard per i personaggi
Tieni presente che possiamo anche utilizzare l’indice di somiglianza Jaccard per set di dati contenenti caratteri anziché numeri.
Ad esempio, supponiamo di avere i seguenti due set di dati:
E = ['cat', 'dog', 'hippo', 'monkey'] F = ['monkey', 'rhino', 'ostrich', 'salmon']
Per calcolare la somiglianza di Jaccard tra loro, troviamo prima il numero totale di osservazioni in entrambi gli insiemi, quindi dividiamo per il numero totale di osservazioni in entrambi gli insiemi:
- Numero di osservazioni in entrambi: {‘scimmia’} = 1
- Numero di osservazioni nell’uno o nell’altro: {‘gatto’, ‘cane’, ippopotamo’, ‘scimmia’, ‘rinoceronte’, ‘struzzo’, ‘salmone’} = 7
- Somiglianza con Jaccard: 1/7 = 0,142857
L’indice di somiglianza di Jaccard risulta essere 0,142857 . Essendo questo numero piuttosto basso, ciò indica che i due insiemi sono abbastanza diversi.
La distanza Jaccard
La distanza Jaccard misura la dissomiglianza tra due set di dati e viene calcolata come segue:
Distanza Jaccard = 1 – Somiglianza Jaccard
Questa misurazione ci dà un’idea di quanto siano diversi due insiemi di dati o di quanto siano diversi .
Ad esempio, se due set di dati hanno una somiglianza Jaccard dell’80%, avranno una distanza Jaccard pari a 1 – 0,8 = 0,2 o 20%.
Risorse addizionali
I seguenti tutorial spiegano come calcolare la somiglianza di Jaccard utilizzando diversi software statistici:
Come calcolare la somiglianza di Jaccard in R
Come calcolare la somiglianza di Jaccard in Python