Eine einfache erklärung des jaccard-ähnlichkeitsindex


Der Jaccard-Ähnlichkeitsindex ist ein Maß für die Ähnlichkeit zwischen zwei Datensätzen.

Der von Paul Jaccard entwickelte Index reicht von 0 bis 1. Je näher er an 1 liegt, desto ähnlicher sind die beiden Datensätze.

Der Jaccard-Ähnlichkeitsindex wird wie folgt berechnet:

Jaccard-Ähnlichkeit = (Anzahl der Beobachtungen in beiden Sätzen) / (Anzahl in jedem Satz)

Oder in Notationsform geschrieben:

J(A, B) = |A∩B| / |A∪B|

Wenn zwei Datensätze genau die gleichen Mitglieder haben, ist ihr Jaccard-Ähnlichkeitsindex 1. Wenn sie hingegen keine gemeinsamen Mitglieder haben, ist ihre Ähnlichkeit 0.

Die folgenden Beispiele zeigen, wie der Jaccard-Ähnlichkeitsindex für einige verschiedene Datensätze berechnet wird.

Beispiel 1: Jaccard-Ähnlichkeit

Angenommen, wir haben die folgenden zwei Datensätze:

 A = [0, 1, 2, 5, 6, 8, 9]
B = [0, 2, 3, 4, 5, 7, 9]

Um die Jaccard-Ähnlichkeit zwischen ihnen zu berechnen, ermitteln wir zunächst die Gesamtzahl der Beobachtungen in beiden Sätzen und dividieren dann durch die Gesamtzahl der Beobachtungen in beiden Sätzen:

  • Anzahl der Beobachtungen in beiden: {0, 2, 5, 9} = 4
  • Anzahl der Beobachtungen in: {0, 1, 2, 3, 4, 5, 6, 7, 8, 9} = 10
  • Jaccard-Ähnlichkeit: 4/10 = 0,4

Der Jaccard-Ähnlichkeitsindex beträgt 0,4 .

Beispiel 2: Jaccard-Ähnlichkeit (Fortsetzung)

Angenommen, wir haben die folgenden zwei Datensätze:

 C = [0, 1, 2, 3, 4, 5]
D = [6, 7, 8, 9, 10]

Um die Jaccard-Ähnlichkeit zwischen ihnen zu berechnen, ermitteln wir zunächst die Gesamtzahl der Beobachtungen in beiden Sätzen und dividieren dann durch die Gesamtzahl der Beobachtungen in beiden Sätzen:

  • Anzahl der Beobachtungen in beiden: {} = 0
  • Anzahl der Beobachtungen in: {0, 1, 2, 3, 4, 5, 6, 7, 8, 9, 10} = 11
  • Jaccard-Ähnlichkeit: 0/11 = 0

Der Jaccard-Ähnlichkeitsindex beträgt 0 . Dies weist darauf hin, dass die beiden Datensätze keine gemeinsamen Mitglieder haben.

Beispiel 3: Jaccard-Ähnlichkeit für Zeichen

Beachten Sie, dass wir den Jaccard-Ähnlichkeitsindex auch für Datensätze verwenden können, die Zeichen anstelle von Zahlen enthalten.

Angenommen, wir haben die folgenden zwei Datensätze:

 E = ['cat', 'dog', 'hippo', 'monkey']
F = ['monkey', 'rhino', 'ostrich', 'salmon']

Um die Jaccard-Ähnlichkeit zwischen ihnen zu berechnen, ermitteln wir zunächst die Gesamtzahl der Beobachtungen in beiden Sätzen und dividieren dann durch die Gesamtzahl der Beobachtungen in beiden Sätzen:

  • Anzahl der Beobachtungen in beiden: {‚monkey‘} = 1
  • Anzahl der Beobachtungen in der einen oder anderen Kategorie: {‚Katze‘, ‚Hund‘, Nilpferd‘, ‚Affe‘, ‚Nashorn‘, ‚Strauß‘, ‚Lachs‘} = 7
  • Jaccard-Ähnlichkeit: 1/7 = 0,142857

Der Jaccard-Ähnlichkeitsindex beträgt 0,142857 . Da diese Zahl recht niedrig ist, deutet dies darauf hin, dass die beiden Sätze sehr unterschiedlich sind.

Die Jaccard-Distanz

Die Jaccard-Distanz misst die Unähnlichkeit zwischen zwei Datensätzen und wird wie folgt berechnet:

Jaccard-Distanz = 1 – Jaccard-Ähnlichkeit

Diese Messung gibt uns eine Vorstellung davon, wie unterschiedlich zwei Datensätze sind bzw. wie unterschiedlich sie sind.

Wenn beispielsweise zwei Datensätze eine Jaccard-Ähnlichkeit von 80 % aufweisen, dann haben sie einen Jaccard-Abstand von 1 – 0,8 = 0,2 oder 20 %.

Zusätzliche Ressourcen

Die folgenden Tutorials erklären, wie man die Jaccard-Ähnlichkeit mit unterschiedlicher Statistiksoftware berechnet:

So berechnen Sie die Jaccard-Ähnlichkeit in R
So berechnen Sie die Jaccard-Ähnlichkeit in Python

Einen Kommentar hinzufügen

Deine E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind mit * markiert