情報処理学会ホームページ
FIT2014 第13回情報科学技術フォーラム 開催日:2014年9月3日(水)~5日(金) 会場:筑波大学筑波キャンパス 一般社団法人電子情報通信学会 情報・システムソサイエティ 一般社団法人電子情報通信学会 ヒューマンコミュニケーショングループ 一般社団法人情報処理学会 筑波大学
抄録
E-018
文書索引生成における未知語の取り扱い方法の比較
大西 周・山田剛一・絹川博之(電機大)
文書分別のシステムを作成する際,インデックスターム作成のため形態素解析エンジンを活用することが多い.しかし,形態素解析エンジンでは,ツール内辞書に存在しない単語は正しい解析を行えず未知語として出力される.従来,未知語が出現した際は,新たな単語を辞書に登録することを前提としているが,新語は次々に生まれ,辞書登録が追いつかなくなる.
本研究では,汎用的な文書分別システムの制作を最終目的とし,未知語を含む文書からの索引抽出に適する形態素解析ツールを未知語の取り扱い方法の観点から比較を行う.