Een eenvoudige uitleg van de jaccard-gelijkenisindex
De Jaccard-gelijkenisindex is een maatstaf voor de gelijkenis tussen twee datasets.
De index is ontwikkeld door Paul Jaccard en varieert van 0 tot 1. Hoe dichter deze bij 1 ligt, hoe meer de twee datasets op elkaar lijken.
De Jaccard-gelijkenisindex wordt als volgt berekend:
Jaccard-overeenkomst = (aantal waarnemingen in beide sets) / (aantal in beide sets)
Of, geschreven in notatievorm:
J(A, B) = |A∩B| / |A∪B|
Als twee datasets exact dezelfde leden delen, is hun Jaccard-gelijkenisindex 1. Omgekeerd, als ze geen gemeenschappelijke leden hebben, is hun gelijkenis 0.
De volgende voorbeelden laten zien hoe u de Jaccard-gelijkenisindex voor een aantal verschillende gegevenssets kunt berekenen.
Voorbeeld 1: Jaccard-overeenkomst
Stel dat we de volgende twee sets gegevens hebben:
A = [0, 1, 2, 5, 6, 8, 9] B = [0, 2, 3, 4, 5, 7, 9]
Om de Jaccard-overeenkomst tussen beide te berekenen, vinden we eerst het totale aantal observaties in beide sets en delen we dit vervolgens door het totale aantal observaties in elke set:
- Aantal waarnemingen in beide: {0, 2, 5, 9} = 4
- Aantal waarnemingen in beide: {0, 1, 2, 3, 4, 5, 6, 7, 8, 9} = 10
- Jaccard-overeenkomst: 4/10 = 0,4
De Jaccard-gelijkenisindex blijkt 0,4 te zijn.
Voorbeeld 2: Jaccard-overeenkomst (vervolg)
Stel dat we de volgende twee sets gegevens hebben:
C = [0, 1, 2, 3, 4, 5] D = [6, 7, 8, 9, 10]
Om de Jaccard-overeenkomst tussen beide te berekenen, vinden we eerst het totale aantal observaties in beide sets en delen we dit vervolgens door het totale aantal observaties in elke set:
- Aantal waarnemingen in beide: {} = 0
- Aantal waarnemingen in beide: {0, 1, 2, 3, 4, 5, 6, 7, 8, 9, 10} = 11
- Jaccard-overeenkomst: 0/11 = 0
De Jaccard-gelijkenisindex blijkt 0 te zijn. Dit geeft aan dat de twee datasets geen gemeenschappelijke leden delen.
Voorbeeld 3: Jaccard-overeenkomst voor karakters
Merk op dat we de Jaccard-gelijkenisindex ook kunnen gebruiken voor datasets die tekens bevatten in plaats van cijfers.
Stel dat we bijvoorbeeld de volgende twee sets gegevens hebben:
E = ['cat', 'dog', 'hippo', 'monkey'] F = ['monkey', 'rhino', 'ostrich', 'salmon']
Om de Jaccard-overeenkomst tussen beide te berekenen, vinden we eerst het totale aantal observaties in beide sets en delen we dit vervolgens door het totale aantal observaties in elke set:
- Aantal observaties in beide: {‚aap‘} = 1
- Aantal waarnemingen in de een of de ander: {‚kat‘, ‚hond‘, nijlpaard‘, ‚aap‘, ’neushoorn‘, ’struisvogel‘, ‚zalm‘} = 7
- Jaccard-overeenkomst: 1/7 = 0,142857
De Jaccard-gelijkenisindex blijkt 0,142857 te zijn. Omdat dit aantal vrij laag is, geeft dit aan dat de twee sets behoorlijk verschillend zijn.
De Jaccard-afstand
De Jaccard-afstand meet de ongelijkheid tussen twee datasets en wordt als volgt berekend:
Jaccard-afstand = 1 – Jaccard-gelijkenis
Deze meting geeft ons een idee van hoe verschillend twee sets gegevens zijn of hoe verschillend ze zijn.
Als twee datasets bijvoorbeeld een Jaccard-overeenkomst van 80% hebben, hebben ze een Jaccard-afstand van 1 – 0,8 = 0,2 of 20%.
Aanvullende bronnen
In de volgende tutorials wordt uitgelegd hoe u de Jaccard-gelijkenis kunt berekenen met behulp van verschillende statistische software:
Hoe Jaccard-gelijkenis in R te berekenen
Hoe Jaccard-gelijkenis in Python te berekenen