Eine einfache erklärung des jaccard-ähnlichkeitsindex
Der Jaccard-Ähnlichkeitsindex ist ein Maß für die Ähnlichkeit zwischen zwei Datensätzen.
Der von Paul Jaccard entwickelte Index reicht von 0 bis 1. Je näher er an 1 liegt, desto ähnlicher sind die beiden Datensätze.
Der Jaccard-Ähnlichkeitsindex wird wie folgt berechnet:
Jaccard-Ähnlichkeit = (Anzahl der Beobachtungen in beiden Sätzen) / (Anzahl in jedem Satz)
Oder in Notationsform geschrieben:
J(A, B) = |A∩B| / |A∪B|
Wenn zwei Datensätze genau die gleichen Mitglieder haben, ist ihr Jaccard-Ähnlichkeitsindex 1. Wenn sie hingegen keine gemeinsamen Mitglieder haben, ist ihre Ähnlichkeit 0.
Die folgenden Beispiele zeigen, wie der Jaccard-Ähnlichkeitsindex für einige verschiedene Datensätze berechnet wird.
Beispiel 1: Jaccard-Ähnlichkeit
Angenommen, wir haben die folgenden zwei Datensätze:
A = [0, 1, 2, 5, 6, 8, 9] B = [0, 2, 3, 4, 5, 7, 9]
Um die Jaccard-Ähnlichkeit zwischen ihnen zu berechnen, ermitteln wir zunächst die Gesamtzahl der Beobachtungen in beiden Sätzen und dividieren dann durch die Gesamtzahl der Beobachtungen in beiden Sätzen:
- Anzahl der Beobachtungen in beiden: {0, 2, 5, 9} = 4
- Anzahl der Beobachtungen in: {0, 1, 2, 3, 4, 5, 6, 7, 8, 9} = 10
- Jaccard-Ähnlichkeit: 4/10 = 0,4
Der Jaccard-Ähnlichkeitsindex beträgt 0,4 .
Beispiel 2: Jaccard-Ähnlichkeit (Fortsetzung)
Angenommen, wir haben die folgenden zwei Datensätze:
C = [0, 1, 2, 3, 4, 5] D = [6, 7, 8, 9, 10]
Um die Jaccard-Ähnlichkeit zwischen ihnen zu berechnen, ermitteln wir zunächst die Gesamtzahl der Beobachtungen in beiden Sätzen und dividieren dann durch die Gesamtzahl der Beobachtungen in beiden Sätzen:
- Anzahl der Beobachtungen in beiden: {} = 0
- Anzahl der Beobachtungen in: {0, 1, 2, 3, 4, 5, 6, 7, 8, 9, 10} = 11
- Jaccard-Ähnlichkeit: 0/11 = 0
Der Jaccard-Ähnlichkeitsindex beträgt 0 . Dies weist darauf hin, dass die beiden Datensätze keine gemeinsamen Mitglieder haben.
Beispiel 3: Jaccard-Ähnlichkeit für Zeichen
Beachten Sie, dass wir den Jaccard-Ähnlichkeitsindex auch für Datensätze verwenden können, die Zeichen anstelle von Zahlen enthalten.
Angenommen, wir haben die folgenden zwei Datensätze:
E = ['cat', 'dog', 'hippo', 'monkey'] F = ['monkey', 'rhino', 'ostrich', 'salmon']
Um die Jaccard-Ähnlichkeit zwischen ihnen zu berechnen, ermitteln wir zunächst die Gesamtzahl der Beobachtungen in beiden Sätzen und dividieren dann durch die Gesamtzahl der Beobachtungen in beiden Sätzen:
- Anzahl der Beobachtungen in beiden: {‚monkey‘} = 1
- Anzahl der Beobachtungen in der einen oder anderen Kategorie: {‚Katze‘, ‚Hund‘, Nilpferd‘, ‚Affe‘, ‚Nashorn‘, ‚Strauß‘, ‚Lachs‘} = 7
- Jaccard-Ähnlichkeit: 1/7 = 0,142857
Der Jaccard-Ähnlichkeitsindex beträgt 0,142857 . Da diese Zahl recht niedrig ist, deutet dies darauf hin, dass die beiden Sätze sehr unterschiedlich sind.
Die Jaccard-Distanz
Die Jaccard-Distanz misst die Unähnlichkeit zwischen zwei Datensätzen und wird wie folgt berechnet:
Jaccard-Distanz = 1 – Jaccard-Ähnlichkeit
Diese Messung gibt uns eine Vorstellung davon, wie unterschiedlich zwei Datensätze sind bzw. wie unterschiedlich sie sind.
Wenn beispielsweise zwei Datensätze eine Jaccard-Ähnlichkeit von 80 % aufweisen, dann haben sie einen Jaccard-Abstand von 1 – 0,8 = 0,2 oder 20 %.
Zusätzliche Ressourcen
Die folgenden Tutorials erklären, wie man die Jaccard-Ähnlichkeit mit unterschiedlicher Statistiksoftware berechnet:
So berechnen Sie die Jaccard-Ähnlichkeit in R
So berechnen Sie die Jaccard-Ähnlichkeit in Python