Een eenvoudige uitleg van de jaccard-gelijkenisindex


De Jaccard-gelijkenisindex is een maatstaf voor de gelijkenis tussen twee datasets.

De index is ontwikkeld door Paul Jaccard en varieert van 0 tot 1. Hoe dichter deze bij 1 ligt, hoe meer de twee datasets op elkaar lijken.

De Jaccard-gelijkenisindex wordt als volgt berekend:

Jaccard-overeenkomst = (aantal waarnemingen in beide sets) / (aantal in beide sets)

Of, geschreven in notatievorm:

J(A, B) = |A∩B| / |A∪B|

Als twee datasets exact dezelfde leden delen, is hun Jaccard-gelijkenisindex 1. Omgekeerd, als ze geen gemeenschappelijke leden hebben, is hun gelijkenis 0.

De volgende voorbeelden laten zien hoe u de Jaccard-gelijkenisindex voor een aantal verschillende gegevenssets kunt berekenen.

Voorbeeld 1: Jaccard-overeenkomst

Stel dat we de volgende twee sets gegevens hebben:

 A = [0, 1, 2, 5, 6, 8, 9]
B = [0, 2, 3, 4, 5, 7, 9]

Om de Jaccard-overeenkomst tussen beide te berekenen, vinden we eerst het totale aantal observaties in beide sets en delen we dit vervolgens door het totale aantal observaties in elke set:

  • Aantal waarnemingen in beide: {0, 2, 5, 9} = 4
  • Aantal waarnemingen in beide: {0, 1, 2, 3, 4, 5, 6, 7, 8, 9} = 10
  • Jaccard-overeenkomst: 4/10 = 0,4

De Jaccard-gelijkenisindex blijkt 0,4 te zijn.

Voorbeeld 2: Jaccard-overeenkomst (vervolg)

Stel dat we de volgende twee sets gegevens hebben:

 C = [0, 1, 2, 3, 4, 5]
D = [6, 7, 8, 9, 10]

Om de Jaccard-overeenkomst tussen beide te berekenen, vinden we eerst het totale aantal observaties in beide sets en delen we dit vervolgens door het totale aantal observaties in elke set:

  • Aantal waarnemingen in beide: {} = 0
  • Aantal waarnemingen in beide: {0, 1, 2, 3, 4, 5, 6, 7, 8, 9, 10} = 11
  • Jaccard-overeenkomst: 0/11 = 0

De Jaccard-gelijkenisindex blijkt 0 te zijn. Dit geeft aan dat de twee datasets geen gemeenschappelijke leden delen.

Voorbeeld 3: Jaccard-overeenkomst voor karakters

Merk op dat we de Jaccard-gelijkenisindex ook kunnen gebruiken voor datasets die tekens bevatten in plaats van cijfers.

Stel dat we bijvoorbeeld de volgende twee sets gegevens hebben:

 E = ['cat', 'dog', 'hippo', 'monkey']
F = ['monkey', 'rhino', 'ostrich', 'salmon']

Om de Jaccard-overeenkomst tussen beide te berekenen, vinden we eerst het totale aantal observaties in beide sets en delen we dit vervolgens door het totale aantal observaties in elke set:

  • Aantal observaties in beide: {‚aap‘} = 1
  • Aantal waarnemingen in de een of de ander: {‚kat‘, ‚hond‘, nijlpaard‘, ‚aap‘, ’neushoorn‘, ’struisvogel‘, ‚zalm‘} = 7
  • Jaccard-overeenkomst: 1/7 = 0,142857

De Jaccard-gelijkenisindex blijkt 0,142857 te zijn. Omdat dit aantal vrij laag is, geeft dit aan dat de twee sets behoorlijk verschillend zijn.

De Jaccard-afstand

De Jaccard-afstand meet de ongelijkheid tussen twee datasets en wordt als volgt berekend:

Jaccard-afstand = 1 – Jaccard-gelijkenis

Deze meting geeft ons een idee van hoe verschillend twee sets gegevens zijn of hoe verschillend ze zijn.

Als twee datasets bijvoorbeeld een Jaccard-overeenkomst van 80% hebben, hebben ze een Jaccard-afstand van 1 – 0,8 = 0,2 of 20%.

Aanvullende bronnen

In de volgende tutorials wordt uitgelegd hoe u de Jaccard-gelijkenis kunt berekenen met behulp van verschillende statistische software:

Hoe Jaccard-gelijkenis in R te berekenen
Hoe Jaccard-gelijkenis in Python te berekenen

Einen Kommentar hinzufügen

Deine E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind mit * markiert