
抄録
E-018
文書索引生成における未知語の取り扱い方法の比較
◎大西 周・山田剛一・絹川博之(電機大)
文書分別のシステムを作成する際,インデックスターム作成のため形態素解析エンジンを活用することが多い.しかし,形態素解析エンジンでは,ツール内辞書に存在しない単語は正しい解析を行えず未知語として出力される.従来,未知語が出現した際は,新たな単語を辞書に登録することを前提としているが,新語は次々に生まれ,辞書登録が追いつかなくなる.
本研究では,汎用的な文書分別システムの制作を最終目的とし,未知語を含む文書からの索引抽出に適する形態素解析ツールを未知語の取り扱い方法の観点から比較を行う.