คำอธิบายง่ายๆ เกี่ยวกับดัชนีความคล้ายคลึงของ jaccard
ดัชนีความคล้ายคลึงกันของ Jaccard คือการวัดความคล้ายคลึงกันระหว่างชุดข้อมูลสองชุด
พัฒนาโดย Paul Jaccard ดัชนีมีช่วงตั้งแต่ 0 ถึง 1 ยิ่งเข้าใกล้ 1 มากเท่าใด ชุดข้อมูลทั้งสองก็จะยิ่งคล้ายกันมากขึ้นเท่านั้น
ดัชนีความคล้ายคลึงกันของ Jaccard มีการคำนวณดังนี้:
ความคล้ายคลึงกันของ Jaccard = (จำนวนการสังเกตในทั้งสองชุด) / (จำนวนในชุดใดชุดหนึ่ง)
หรือเขียนในรูปแบบสัญกรณ์:
เจ(A, B) = |A∩B| / |A∪B|
หากชุดข้อมูลสองชุดใช้สมาชิกเดียวกันทุกประการ ดัชนีความคล้ายคลึงของ Jaccard จะเป็น 1 ในทางกลับกัน หากไม่มีสมาชิกที่เหมือนกัน ความคล้ายคลึงกันจะเป็น 0
ตัวอย่างต่อไปนี้แสดงวิธีคำนวณดัชนีความคล้ายคลึงของ Jaccard สำหรับชุดข้อมูลที่แตกต่างกันสองสามชุด
ตัวอย่างที่ 1: ความคล้ายคลึงกันของแจ็คการ์ด
สมมติว่าเรามีข้อมูลสองชุดต่อไปนี้:
A = [0, 1, 2, 5, 6, 8, 9] B = [0, 2, 3, 4, 5, 7, 9]
ในการคำนวณความคล้ายคลึงกันของ Jaccard ระหว่างทั้งสองชุด เราจะหาจำนวนการสังเกตทั้งหมดในทั้งสองชุดก่อน จากนั้นจึงหารด้วยจำนวนการสังเกตทั้งหมดในชุดใดชุดหนึ่ง:
- จำนวนการสังเกตทั้งสอง: {0, 2, 5, 9} = 4
- จำนวนการสังเกตในอย่างใดอย่างหนึ่ง: {0, 1, 2, 3, 4, 5, 6, 7, 8, 9} = 10
- ความคล้ายคลึงกันของแจ็คการ์ด: 4/10 = 0.4
ดัชนีความคล้ายคลึงกันของ Jaccard กลายเป็น 0.4
ตัวอย่างที่ 2: ความคล้ายคลึงกันของ Jaccard (ต่อ)
สมมติว่าเรามีข้อมูลสองชุดต่อไปนี้:
C = [0, 1, 2, 3, 4, 5] D = [6, 7, 8, 9, 10]
ในการคำนวณความคล้ายคลึงกันของ Jaccard ระหว่างทั้งสองชุด เราจะหาจำนวนการสังเกตทั้งหมดในทั้งสองชุดก่อน จากนั้นจึงหารด้วยจำนวนการสังเกตทั้งหมดในชุดใดชุดหนึ่ง:
- จำนวนการสังเกตทั้งสอง: {} = 0
- จำนวนการสังเกตในอย่างใดอย่างหนึ่ง: {0, 1, 2, 3, 4, 5, 6, 7, 8, 9, 10} = 11
- ความคล้ายคลึงกันของแจ็คการ์ด: 0/11 = 0
ดัชนีความคล้ายคลึงของ Jaccard กลายเป็น 0 สิ่งนี้บ่งชี้ว่าชุดข้อมูลทั้งสองชุดไม่มีสมาชิกร่วมกัน
ตัวอย่างที่ 3: ความคล้ายคลึงกันของ Jaccard สำหรับอักขระ
โปรดทราบว่าเรายังสามารถใช้ดัชนีความคล้ายคลึงของ Jaccard สำหรับชุดข้อมูลที่มีอักขระแทนตัวเลขได้
ตัวอย่างเช่น สมมติว่าเรามีข้อมูลสองชุดต่อไปนี้:
E = ['cat', 'dog', 'hippo', 'monkey'] F = ['monkey', 'rhino', 'ostrich', 'salmon']
ในการคำนวณความคล้ายคลึงกันของ Jaccard ระหว่างทั้งสองชุด เราจะหาจำนวนการสังเกตทั้งหมดในทั้งสองชุดก่อน จากนั้นจึงหารด้วยจำนวนการสังเกตทั้งหมดในชุดใดชุดหนึ่ง:
- จำนวนการสังเกตทั้งสอง: {‘monkey’} = 1
- จำนวนการสังเกตอย่างใดอย่างหนึ่ง: {‘cat’, ‘dog’, hippopotamus’, ‘monkey’, ‘rhino’, ‘ostrich’, ‘salmon’} = 7
- ความคล้ายคลึงกันของแจ็คการ์ด: 1/7 = 0.142857
ดัชนีความคล้ายคลึงของ Jaccard กลายเป็น 0.142857 จำนวนนี้ค่อนข้างต่ำแสดงว่าทั้งสองชุดมีความแตกต่างกันมาก
ระยะทางแจ็คการ์ด
ระยะทาง Jaccard วัด ความแตกต่าง ระหว่างชุดข้อมูลสองชุดและคำนวณดังนี้:
ระยะทางแจ็คการ์ด = 1 – ความคล้ายคลึงกันของแจ็คการ์ด
การวัดนี้ทำให้เราเข้าใจได้ว่าข้อมูลสองชุดแตกต่างกันอย่างไรหรือ แตกต่างกัน อย่างไร
ตัวอย่างเช่น หากชุดข้อมูลสองชุดมีความคล้ายคลึงกันของ Jaccard ที่ 80% ดังนั้น ชุดข้อมูลทั้งสองจะมีระยะห่างของ Jaccard ที่ 1 – 0.8 = 0.2 หรือ 20%
แหล่งข้อมูลเพิ่มเติม
บทช่วยสอนต่อไปนี้จะอธิบายวิธีคำนวณความคล้ายคลึงกันของ Jaccard โดยใช้ซอฟต์แวร์ทางสถิติต่างๆ:
วิธีการคำนวณความคล้ายคลึงกันของ Jaccard ใน R
วิธีการคำนวณความคล้ายคลึงกันของ Jaccard ใน Python