Penjelasan sederhana tentang indeks kesamaan jaccard
Indeks kesamaan Jaccard adalah ukuran kesamaan antara dua kumpulan data.
Dikembangkan oleh Paul Jaccard , indeks berkisar dari 0 hingga 1. Semakin mendekati 1, semakin mirip kedua kumpulan data tersebut.
Indeks kesamaan Jaccard dihitung sebagai berikut:
Kesamaan Jaccard = (jumlah observasi di kedua set) / (jumlah di salah satu set)
Atau ditulis dalam bentuk notasi:
J(A, B) = |A∩B| / |A∪B|
Jika dua kumpulan data mempunyai anggota yang persis sama, indeks kesamaan Jaccardnya akan menjadi 1. Sebaliknya, jika keduanya tidak memiliki anggota yang sama, maka kesamaannya akan menjadi 0.
Contoh berikut menunjukkan cara menghitung indeks kesamaan Jaccard untuk beberapa kumpulan data yang berbeda.
Contoh 1: Kemiripan Jaccard
Misalkan kita memiliki dua kumpulan data berikut:
A = [0, 1, 2, 5, 6, 8, 9] B = [0, 2, 3, 4, 5, 7, 9]
Untuk menghitung kesamaan Jaccard di antara keduanya, pertama-tama kita cari jumlah total observasi di kedua himpunan, lalu bagi dengan jumlah total observasi di salah satu himpunan:
- Banyaknya observasi keduanya: {0, 2, 5, 9} = 4
- Banyaknya observasi di salah satu: {0, 1, 2, 3, 4, 5, 6, 7, 8, 9} = 10
- Kemiripan Jaccard: 4/10 = 0,4
Indeks kesamaan Jaccard ternyata 0,4 .
Contoh 2: Kesamaan Jaccard (lanjutan)
Misalkan kita memiliki dua kumpulan data berikut:
C = [0, 1, 2, 3, 4, 5] D = [6, 7, 8, 9, 10]
Untuk menghitung kesamaan Jaccard di antara keduanya, pertama-tama kita cari jumlah total observasi di kedua himpunan, lalu bagi dengan jumlah total observasi di salah satu himpunan:
- Jumlah pengamatan di keduanya: {} = 0
- Banyaknya observasi di salah satu: {0, 1, 2, 3, 4, 5, 6, 7, 8, 9, 10} = 11
- Kesamaan Jaccard: 0/11 = 0
Indeks kesamaan Jaccard ternyata 0 . Hal ini menunjukkan bahwa kedua kumpulan data tidak memiliki anggota yang sama.
Contoh 3: Kesamaan karakter Jaccard
Perhatikan bahwa kita juga dapat menggunakan indeks kesamaan Jaccard untuk kumpulan data yang berisi karakter, bukan angka.
Misalnya, kita memiliki dua kumpulan data berikut:
E = ['cat', 'dog', 'hippo', 'monkey'] F = ['monkey', 'rhino', 'ostrich', 'salmon']
Untuk menghitung kesamaan Jaccard di antara keduanya, pertama-tama kita cari jumlah total observasi di kedua himpunan, lalu bagi dengan jumlah total observasi di salah satu himpunan:
- Banyaknya observasi pada keduanya: {‘monyet’} = 1
- Banyaknya observasi pada satu atau lainnya: {‘kucing’, ‘anjing’, kuda nil’, ‘monyet’, ‘badak’, ‘burung unta’, ‘salmon’} = 7
- Kemiripan Jaccard: 1/7 = 0,142857
Indeks kesamaan Jaccard ternyata 0,142857 . Angka ini cukup rendah, hal ini menunjukkan bahwa kedua set tersebut cukup berbeda.
Jarak Jaccard
Jarak Jaccard mengukur ketidaksamaan antara dua kumpulan data dan dihitung sebagai berikut:
Jarak Jaccard = 1 – Kesamaan Jaccard
Pengukuran ini memberi kita gambaran tentang betapa berbedanya dua kumpulan data atau betapa berbedanya keduanya.
Misalnya, jika dua dataset memiliki kemiripan Jaccard sebesar 80%, maka keduanya akan memiliki jarak Jaccard sebesar 1 – 0.8 = 0.2 atau 20%.
Sumber daya tambahan
Tutorial berikut menjelaskan cara menghitung kesamaan Jaccard menggunakan perangkat lunak statistik yang berbeda:
Cara menghitung kesamaan Jaccard di R
Cara menghitung kesamaan Jaccard dengan Python