Une explication simple de l’indice de similarité Jaccard
L’ indice de similarité Jaccard est une mesure de la similarité entre deux ensembles de données.
Développé par Paul Jaccard , l’indice va de 0 à 1. Plus il est proche de 1, plus les deux ensembles de données sont similaires.
L’indice de similarité Jaccard est calculé comme suit :
Similitude Jaccard = (nombre d’observations dans les deux ensembles) / (nombre dans l’un ou l’autre ensemble)
Ou, écrit sous forme de notation :
J(UNE, B) = |UNE∩B| / |UNE∪B|
Si deux ensembles de données partagent exactement les mêmes membres, leur indice de similarité Jaccard sera de 1. À l’inverse, s’ils n’ont aucun membre en commun, leur similarité sera de 0.
Les exemples suivants montrent comment calculer l’indice de similarité Jaccard pour quelques ensembles de données différents.
Exemple 1 : similarité Jaccard
Supposons que nous disposions des deux ensembles de données suivants :
A = [0, 1, 2, 5, 6, 8, 9] B = [0, 2, 3, 4, 5, 7, 9]
Pour calculer la similarité Jaccard entre eux, nous trouvons d’abord le nombre total d’observations dans les deux ensembles, puis divisons par le nombre total d’observations dans l’un ou l’autre ensemble :
- Nombre d’observations dans les deux : {0, 2, 5, 9} = 4
- Nombre d’observations dans l’un ou l’autre : {0, 1, 2, 3, 4, 5, 6, 7, 8, 9} = 10
- Similitude Jaccard : 4/10 = 0,4
L’indice de similarité Jaccard s’avère être de 0,4 .
Exemple 2 : similitude Jaccard (suite)
Supposons que nous disposions des deux ensembles de données suivants :
C = [0, 1, 2, 3, 4, 5] D = [6, 7, 8, 9, 10]
Pour calculer la similarité Jaccard entre eux, nous trouvons d’abord le nombre total d’observations dans les deux ensembles, puis divisons par le nombre total d’observations dans l’un ou l’autre ensemble :
- Nombre d’observations dans les deux : {} = 0
- Nombre d’observations dans l’un ou l’autre : {0, 1, 2, 3, 4, 5, 6, 7, 8, 9, 10} = 11
- Similitude Jaccard : 0/11 = 0
L’indice de similarité Jaccard s’avère être 0 . Cela indique que les deux ensembles de données ne partagent aucun membre commun.
Exemple 3 : Similitude Jaccard pour les personnages
Notez que nous pouvons également utiliser l’index de similarité Jaccard pour les ensembles de données contenant des caractères plutôt que des chiffres.
Par exemple, supposons que nous disposions des deux ensembles de données suivants :
E = ['cat', 'dog', 'hippo', 'monkey'] F = ['monkey', 'rhino', 'ostrich', 'salmon']
Pour calculer la similarité Jaccard entre eux, nous trouvons d’abord le nombre total d’observations dans les deux ensembles, puis divisons par le nombre total d’observations dans l’un ou l’autre ensemble :
- Nombre d’observations dans les deux : {‘monkey’} = 1
- Nombre d’observations dans l’un ou l’autre : {‘chat’, ‘chien’, hippopotame’, ‘singe’, ‘rhino’, ‘autruche’, ‘saumon’} = 7
- Similitude Jaccard : 1 / 7= 0,142857
L’indice de similarité Jaccard s’avère être de 0,142857 . Ce nombre étant assez faible, cela indique que les deux ensembles sont assez différents.
La distance Jaccard
La distance Jaccard mesure la dissimilarité entre deux ensembles de données et est calculée comme suit :
Distance Jaccard = 1 – Similitude Jaccard
Cette mesure nous donne une idée de la différence entre deux ensembles de données ou de la différence entre eux.
Par exemple, si deux ensembles de données ont une similarité Jaccard de 80 %, alors ils auront une distance Jaccard de 1 – 0,8 = 0,2 ou 20 %.
Ressources additionnelles
Les tutoriels suivants expliquent comment calculer la similarité Jaccard à l’aide de différents logiciels statistiques :
Comment calculer la similarité Jaccard dans R
Comment calculer la similarité Jaccard en Python