Personnaliser les préférences

Nous utilisons des cookies pour vous aider à naviguer efficacement et à exécuter certaines fonctions. Vous trouverez ci-dessous des informations détaillées sur tous les cookies sous chaque catégorie de consentement.

Les cookies classés comme « Nécessaires » sont stockés sur votre navigateur car ils sont essentiels pour activer les fonctionnalités de base du site.... 

Toujours actif

Necessary cookies are required to enable the basic features of this site, such as providing secure log-in or adjusting your consent preferences. These cookies do not store any personally identifiable data.

Aucun cookie à afficher.

Functional cookies help perform certain functionalities like sharing the content of the website on social media platforms, collecting feedback, and other third-party features.

Aucun cookie à afficher.

Analytical cookies are used to understand how visitors interact with the website. These cookies help provide information on metrics such as the number of visitors, bounce rate, traffic source, etc.

Aucun cookie à afficher.

Performance cookies are used to understand and analyze the key performance indexes of the website which helps in delivering a better user experience for the visitors.

Aucun cookie à afficher.

Advertisement cookies are used to provide visitors with customized advertisements based on the pages you visited previously and to analyze the effectiveness of the ad campaigns.

Aucun cookie à afficher.

Une explication simple de l’indice de similarité Jaccard



L’ indice de similarité Jaccard est une mesure de la similarité entre deux ensembles de données.

Développé par Paul Jaccard , l’indice va de 0 à 1. Plus il est proche de 1, plus les deux ensembles de données sont similaires.

L’indice de similarité Jaccard est calculé comme suit :

Similitude Jaccard = (nombre d’observations dans les deux ensembles) / (nombre dans l’un ou l’autre ensemble)

Ou, écrit sous forme de notation :

J(UNE, B) = |UNE∩B| / |UNE∪B|

Si deux ensembles de données partagent exactement les mêmes membres, leur indice de similarité Jaccard sera de 1. À l’inverse, s’ils n’ont aucun membre en commun, leur similarité sera de 0.

Les exemples suivants montrent comment calculer l’indice de similarité Jaccard pour quelques ensembles de données différents.

Exemple 1 : similarité Jaccard

Supposons que nous disposions des deux ensembles de données suivants :

A = [0, 1, 2, 5, 6, 8, 9]
B = [0, 2, 3, 4, 5, 7, 9]

Pour calculer la similarité Jaccard entre eux, nous trouvons d’abord le nombre total d’observations dans les deux ensembles, puis divisons par le nombre total d’observations dans l’un ou l’autre ensemble :

  • Nombre d’observations dans les deux : {0, 2, 5, 9} = 4
  • Nombre d’observations dans l’un ou l’autre : {0, 1, 2, 3, 4, 5, 6, 7, 8, 9} = 10
  • Similitude Jaccard : 4/10 = 0,4

L’indice de similarité Jaccard s’avère être de 0,4 .

Exemple 2 : similitude Jaccard (suite)

Supposons que nous disposions des deux ensembles de données suivants :

C = [0, 1, 2, 3, 4, 5]
D = [6, 7, 8, 9, 10]

Pour calculer la similarité Jaccard entre eux, nous trouvons d’abord le nombre total d’observations dans les deux ensembles, puis divisons par le nombre total d’observations dans l’un ou l’autre ensemble :

  • Nombre d’observations dans les deux : {} = 0
  • Nombre d’observations dans l’un ou l’autre : {0, 1, 2, 3, 4, 5, 6, 7, 8, 9, 10} = 11
  • Similitude Jaccard : 0/11 = 0

L’indice de similarité Jaccard s’avère être 0 . Cela indique que les deux ensembles de données ne partagent aucun membre commun.

Exemple 3 : Similitude Jaccard pour les personnages

Notez que nous pouvons également utiliser l’index de similarité Jaccard pour les ensembles de données contenant des caractères plutôt que des chiffres.

Par exemple, supposons que nous disposions des deux ensembles de données suivants :

E = ['cat', 'dog', 'hippo', 'monkey']
F = ['monkey', 'rhino', 'ostrich', 'salmon']

Pour calculer la similarité Jaccard entre eux, nous trouvons d’abord le nombre total d’observations dans les deux ensembles, puis divisons par le nombre total d’observations dans l’un ou l’autre ensemble :

  • Nombre d’observations dans les deux : {‘monkey’} = 1
  • Nombre d’observations dans l’un ou l’autre : {‘chat’, ‘chien’, hippopotame’, ‘singe’, ‘rhino’, ‘autruche’, ‘saumon’} = 7
  • Similitude Jaccard : 1 / 7= 0,142857

L’indice de similarité Jaccard s’avère être de 0,142857 . Ce nombre étant assez faible, cela indique que les deux ensembles sont assez différents.

La distance Jaccard

La distance Jaccard mesure la dissimilarité entre deux ensembles de données et est calculée comme suit :

Distance Jaccard = 1 – Similitude Jaccard

Cette mesure nous donne une idée de la différence entre deux ensembles de données ou de la différence entre eux.

Par exemple, si deux ensembles de données ont une similarité Jaccard de 80 %, alors ils auront une distance Jaccard de 1 – 0,8 = 0,2 ou 20 %.

Ressources additionnelles

Les tutoriels suivants expliquent comment calculer la similarité Jaccard à l’aide de différents logiciels statistiques :

Comment calculer la similarité Jaccard dans R
Comment calculer la similarité Jaccard en Python

Ajouter un commentaire

Votre adresse e-mail ne sera pas publiée. Les champs obligatoires sont indiqués avec *