Uma explicação simples do índice de similaridade de jaccard


O índice de similaridade de Jaccard é uma medida da similaridade entre dois conjuntos de dados.

Desenvolvido por Paul Jaccard , o índice varia de 0 a 1. Quanto mais próximo de 1, mais semelhantes são os dois conjuntos de dados.

O índice de similaridade de Jaccard é calculado da seguinte forma:

Similaridade de Jaccard = (número de observações em ambos os conjuntos) / (número em qualquer conjunto)

Ou, escrito em forma de notação:

J(A,B) = |A∩B| / |A∪B|

Se dois conjuntos de dados compartilharem exatamente os mesmos membros, seu índice de similaridade de Jaccard será 1. Por outro lado, se não tiverem membros em comum, sua similaridade será 0.

Os exemplos a seguir mostram como calcular o índice de similaridade de Jaccard para alguns conjuntos de dados diferentes.

Exemplo 1: semelhança de Jaccard

Suponha que tenhamos os seguintes dois conjuntos de dados:

 A = [0, 1, 2, 5, 6, 8, 9]
B = [0, 2, 3, 4, 5, 7, 9]

Para calcular a similaridade de Jaccard entre eles, primeiro encontramos o número total de observações em ambos os conjuntos e depois dividimos pelo número total de observações em qualquer conjunto:

  • Número de observações em ambos: {0, 2, 5, 9} = 4
  • Número de observações em: {0, 1, 2, 3, 4, 5, 6, 7, 8, 9} = 10
  • Semelhança de Jaccard: 4/10 = 0,4

O índice de similaridade de Jaccard é 0,4 .

Exemplo 2: semelhança de Jaccard (continuação)

Suponha que tenhamos os seguintes dois conjuntos de dados:

 C = [0, 1, 2, 3, 4, 5]
D = [6, 7, 8, 9, 10]

Para calcular a similaridade de Jaccard entre eles, primeiro encontramos o número total de observações em ambos os conjuntos e depois dividimos pelo número total de observações em qualquer conjunto:

  • Número de observações em ambos: {} = 0
  • Número de observações em: {0, 1, 2, 3, 4, 5, 6, 7, 8, 9, 10} = 11
  • Semelhança de Jaccard: 0/11 = 0

O índice de similaridade de Jaccard é 0 . Isso indica que os dois conjuntos de dados não compartilham nenhum membro comum.

Exemplo 3: semelhança de Jaccard para personagens

Observe que também podemos usar o índice de similaridade de Jaccard para conjuntos de dados contendo caracteres em vez de números.

Por exemplo, suponha que temos os dois conjuntos de dados a seguir:

 E = ['cat', 'dog', 'hippo', 'monkey']
F = ['monkey', 'rhino', 'ostrich', 'salmon']

Para calcular a similaridade de Jaccard entre eles, primeiro encontramos o número total de observações em ambos os conjuntos e depois dividimos pelo número total de observações em qualquer conjunto:

  • Número de observações em ambos: {‘macaco’} = 1
  • Número de observações em um ou outro: {‘gato’, ‘cachorro’, hipopótamo’, ‘macaco’, ‘rinoceronte’, ‘avestruz’, ‘salmão’} = 7
  • Semelhança de Jaccard: 1/7 = 0,142857

O índice de similaridade de Jaccard é 0,142857 . Sendo este número bastante baixo, isso indica que os dois conjuntos são bastante diferentes.

A distância de Jaccard

A distância Jaccard mede a dissimilaridade entre dois conjuntos de dados e é calculada da seguinte forma:

Distância de Jaccard = 1 – Semelhança de Jaccard

Essa medição nos dá uma ideia de quão diferentes são ou quão diferentes são dois conjuntos de dados.

Por exemplo, se dois conjuntos de dados tiverem uma similaridade Jaccard de 80%, então eles terão uma distância Jaccard de 1 – 0,8 = 0,2 ou 20%.

Recursos adicionais

Os tutoriais a seguir explicam como calcular a similaridade de Jaccard usando diferentes softwares estatísticos:

Como calcular a similaridade de Jaccard em R
Como calcular a similaridade de Jaccard em Python

Add a Comment

O seu endereço de email não será publicado. Campos obrigatórios marcados com *