5S-1
文書ベクトルの次元削減に基づく有効な類似文書判定への取り組み
○梅澤香矢乃,小林一郎(お茶の水女子大)
近年, 大量のテキストデータが蓄積され利用することが可能となったため,文書検索技術の要求が
高まっている. 文書検索技術においては, テキストデータは文書ベクトル空間モデルとして表現され,
検索対象テキストとのベクトルの類似性を測ることにより所望のテキストを探す. しかし,
文書ベクトルは検索対象となる文書内に含まれる語彙の数だけ次元を持つため, 一般的に数万から
数十万次元の高次元ベクトルのデータとなる. 高次元データをそのまま扱うと実時間応答が
困難になるため, 文書ベクトルの次元を縮小して扱う必要がある. 本研究では, 性能の良い次元削減が
報告されているランダムプロジェクションを用いて次元削減を行い, 類似性判別の検証を行った結果に
ついての考察を述べる.