情報処理学会ホームページ
FIT2013第12回情報科学技術フォーラム 開催日:2013年9月4日(水)~6日(金) 会場:鳥取大学鳥取キャンパス
抄録
D-015
単語頻度を用いた文書分類と代表文書の抽出
木村 淳(ジャストシステム)・吉冨康成・田伏正佳(京都府大)
著者らの知る限り,各文書群の代表となる文書の抽出方法の報告はない.ユーザーが分類例示を行い,クラスタ代表(ベクトル)を更新しながら文書分類を行う研究が報告されているが,各クラスタの代表文書の抽出は行われていない.そこで,本論文では,重複した内容の文書を読むことを避け,効率的に情報を得られるように,同一カテゴリの内容を扱う等の類似した内容の文書群の中から,名詞頻度を基に代表文書を自動抽出し,ユーザーにそれらの文書をランキング形式で提示する手法を提案する.今後の展開として,類義語対応のためのシソーラス利用,特徴ベクトルの次元圧縮による処理の高速化,代表文書の正当性の評価方法の検討,を行う.