คำอธิบายง่ายๆ เกี่ยวกับดัชนีความคล้ายคลึงของ jaccard


ดัชนีความคล้ายคลึงกันของ Jaccard คือการวัดความคล้ายคลึงกันระหว่างชุดข้อมูลสองชุด

พัฒนาโดย Paul Jaccard ดัชนีมีช่วงตั้งแต่ 0 ถึง 1 ยิ่งเข้าใกล้ 1 มากเท่าใด ชุดข้อมูลทั้งสองก็จะยิ่งคล้ายกันมากขึ้นเท่านั้น

ดัชนีความคล้ายคลึงกันของ Jaccard มีการคำนวณดังนี้:

ความคล้ายคลึงกันของ Jaccard = (จำนวนการสังเกตในทั้งสองชุด) / (จำนวนในชุดใดชุดหนึ่ง)

หรือเขียนในรูปแบบสัญกรณ์:

เจ(A, B) = |A∩B| / |A∪B|

หากชุดข้อมูลสองชุดใช้สมาชิกเดียวกันทุกประการ ดัชนีความคล้ายคลึงของ Jaccard จะเป็น 1 ในทางกลับกัน หากไม่มีสมาชิกที่เหมือนกัน ความคล้ายคลึงกันจะเป็น 0

ตัวอย่างต่อไปนี้แสดงวิธีคำนวณดัชนีความคล้ายคลึงของ Jaccard สำหรับชุดข้อมูลที่แตกต่างกันสองสามชุด

ตัวอย่างที่ 1: ความคล้ายคลึงกันของแจ็คการ์ด

สมมติว่าเรามีข้อมูลสองชุดต่อไปนี้:

 A = [0, 1, 2, 5, 6, 8, 9]
B = [0, 2, 3, 4, 5, 7, 9]

ในการคำนวณความคล้ายคลึงกันของ Jaccard ระหว่างทั้งสองชุด เราจะหาจำนวนการสังเกตทั้งหมดในทั้งสองชุดก่อน จากนั้นจึงหารด้วยจำนวนการสังเกตทั้งหมดในชุดใดชุดหนึ่ง:

  • จำนวนการสังเกตทั้งสอง: {0, 2, 5, 9} = 4
  • จำนวนการสังเกตในอย่างใดอย่างหนึ่ง: {0, 1, 2, 3, 4, 5, 6, 7, 8, 9} = 10
  • ความคล้ายคลึงกันของแจ็คการ์ด: 4/10 = 0.4

ดัชนีความคล้ายคลึงกันของ Jaccard กลายเป็น 0.4

ตัวอย่างที่ 2: ความคล้ายคลึงกันของ Jaccard (ต่อ)

สมมติว่าเรามีข้อมูลสองชุดต่อไปนี้:

 C = [0, 1, 2, 3, 4, 5]
D = [6, 7, 8, 9, 10]

ในการคำนวณความคล้ายคลึงกันของ Jaccard ระหว่างทั้งสองชุด เราจะหาจำนวนการสังเกตทั้งหมดในทั้งสองชุดก่อน จากนั้นจึงหารด้วยจำนวนการสังเกตทั้งหมดในชุดใดชุดหนึ่ง:

  • จำนวนการสังเกตทั้งสอง: {} = 0
  • จำนวนการสังเกตในอย่างใดอย่างหนึ่ง: {0, 1, 2, 3, 4, 5, 6, 7, 8, 9, 10} = 11
  • ความคล้ายคลึงกันของแจ็คการ์ด: 0/11 = 0

ดัชนีความคล้ายคลึงของ Jaccard กลายเป็น 0 สิ่งนี้บ่งชี้ว่าชุดข้อมูลทั้งสองชุดไม่มีสมาชิกร่วมกัน

ตัวอย่างที่ 3: ความคล้ายคลึงกันของ Jaccard สำหรับอักขระ

โปรดทราบว่าเรายังสามารถใช้ดัชนีความคล้ายคลึงของ Jaccard สำหรับชุดข้อมูลที่มีอักขระแทนตัวเลขได้

ตัวอย่างเช่น สมมติว่าเรามีข้อมูลสองชุดต่อไปนี้:

 E = ['cat', 'dog', 'hippo', 'monkey']
F = ['monkey', 'rhino', 'ostrich', 'salmon']

ในการคำนวณความคล้ายคลึงกันของ Jaccard ระหว่างทั้งสองชุด เราจะหาจำนวนการสังเกตทั้งหมดในทั้งสองชุดก่อน จากนั้นจึงหารด้วยจำนวนการสังเกตทั้งหมดในชุดใดชุดหนึ่ง:

  • จำนวนการสังเกตทั้งสอง: {‘monkey’} = 1
  • จำนวนการสังเกตอย่างใดอย่างหนึ่ง: {‘cat’, ‘dog’, hippopotamus’, ‘monkey’, ‘rhino’, ‘ostrich’, ‘salmon’} = 7
  • ความคล้ายคลึงกันของแจ็คการ์ด: 1/7 = 0.142857

ดัชนีความคล้ายคลึงของ Jaccard กลายเป็น 0.142857 จำนวนนี้ค่อนข้างต่ำแสดงว่าทั้งสองชุดมีความแตกต่างกันมาก

ระยะทางแจ็คการ์ด

ระยะทาง Jaccard วัด ความแตกต่าง ระหว่างชุดข้อมูลสองชุดและคำนวณดังนี้:

ระยะทางแจ็คการ์ด = 1 – ความคล้ายคลึงกันของแจ็คการ์ด

การวัดนี้ทำให้เราเข้าใจได้ว่าข้อมูลสองชุดแตกต่างกันอย่างไรหรือ แตกต่างกัน อย่างไร

ตัวอย่างเช่น หากชุดข้อมูลสองชุดมีความคล้ายคลึงกันของ Jaccard ที่ 80% ดังนั้น ชุดข้อมูลทั้งสองจะมีระยะห่างของ Jaccard ที่ 1 – 0.8 = 0.2 หรือ 20%

แหล่งข้อมูลเพิ่มเติม

บทช่วยสอนต่อไปนี้จะอธิบายวิธีคำนวณความคล้ายคลึงกันของ Jaccard โดยใช้ซอฟต์แวร์ทางสถิติต่างๆ:

วิธีการคำนวณความคล้ายคลึงกันของ Jaccard ใน R
วิธีการคำนวณความคล้ายคลึงกันของ Jaccard ใน Python

เพิ่มความคิดเห็น

อีเมลของคุณจะไม่แสดงให้คนอื่นเห็น ช่องข้อมูลจำเป็นถูกทำเครื่องหมาย *