6M-07
コサイン類似度に基づくハイブリッド文書クラスタリング法の高速化
○方 越洋,斉藤和巳(神奈川大)
本稿は,球面k-means法の結果に対し,コサイン法に基づく凝集型クラスタリングを高速にデンドログラムを構築する新手法の提案.従来法では,文書数Nに対し,一般にO(N^2)の非類似度計算が必要なため,大規模文書への単純な適用は困難になる.球面k-means法の結果に対して凝集型クラスタリングを適用する枠組みでも,単純法ではO(k^2 M)の非類似度計算量が必要なため,クラスタ数kが大きくなれば計算量増大が避けられない.本研究では,大規模文書データへの適用に特化したハイブリッド文書クラスタリングでのデンドログラム構築において,転置ファイルと内積行列更新による高速化法を新たに提案する.