5W-02
コサイン類似度に基づく分割型と凝集型ハイブリッド文書クラスタリング法
○方 越洋,斉藤和巳(神奈川大)
大規模文書データのクラスタリングを課題とし, k-means 法に代表され分割型 (divisive) で文書クラスタを求め, 凝集型階層的 (agglomerative hierarchical) クラスタリングによりデンドログラムを求める手法を提案する。spherical k-means 法の結果に凝集型階 層的クラスタリングを適用するため, コサイン類似度に基づく群平均法, ウォード法, コサイン法のそれぞれを導出する。約30万文書からなるNYTimes文書データを用いた評価実験では,これら3手法により得るデンドログラムを定性評価するとともに, 新たなクラスタは他を併合しにくくなる空間拡散(space extraction)に着目し, 群平均法やウォード法と比較して, 空間拡散性はコサイン法でより顕著になることをデンドログラム直径(diameter)により定量評価する。