6J-5
ドキュメント分類のための単語クラスタリング手法の提案
○稲吉 洋,岡本秀輔(成蹊大)
本稿では、ドキュメント分類を目的とした単語のクラスタリング
手法について提案する。複数の単語における相関性を多次元空間
内のユークリッド距離として表現し、これを元にk平均法を用いた
クラスタ分析を行う。ユークリッド距離を決定する材料として、
検索エンジン大手googleの学術論文検索サービスscholarでの
検索結果を用いた。k平均法によるクラスタ分析の特徴として、
計算が簡単なことが挙げられる。しかし一方で、パラメータの
初期設定による結果への影響が強いという欠点がある。
そこで、誤った影響を与えずにクラスタリングを行えるような
パラメータ設定及びアルゴリズムを考案した。