Excel でコサイン類似度を計算する方法
コサイン類似度は、内積空間の 2 つのベクトル間の類似性の尺度です。
2 つのベクトル A と B について、コサイン類似度は次のように計算されます。
コサイン類似度= ΣA i B i / (√ΣA i 2 √ΣB i 2 )
このチュートリアルでは、Excel でベクトル間のコサイン類似度を計算する方法を説明します。
Excel の 2 つのベクトル間のコサイン類似度
Excel に次の 2 つのベクトルがあるとします。
次の式を使用して、Excel で 2 つのベクトル間のコサイン類似度を計算できます。
=SUMPRODUCT( A$2:A$9 , B2:B9 )/(SQRT(SUMSQ( B2:B9 ))*SQRT(SUMSQ( $A$2:$A$9 )))
次のスクリーンショットは、この式の使用方法を示しています。
2 つのベクトル間のコサイン類似度は0.965195であることがわかります。
コサイン類似度の値は次のように解釈されることに注意してください。
- 値 -1 は最大の相違度を示します
- 値 0 は、2 つのベクトルが直交していることを示します
- 値 1 は最大の類似性を示します
値0.965195は、この例の 2 つのベクトル間の類似性が高いことを示します。
追加リソース
次のチュートリアルでは、他の統計ソフトウェアでコサイン類似度を計算する方法を説明します。
コサイン類似度の詳細な説明については、次の Wikipedia の記事を参照してください。