5P-9
文書分別のための未知語からのインデックスターム生成
○大西 周,絹川博之,山田剛一(電機大)
文書分別のシステムを作成する際,インデックスターム作成のため形態素解析エンジンを活用することが多い.
しかし,既存の形態素解析エンジンでは,ツール内辞書に存在しない単語は正しい解析を行えず未知語として出力される.
従来,未知語が出現した際は,新たな単語を辞書に登録することを前提としているが,新語は次々に生まれ,辞書登録が追いつかなくなる.
本研究では,汎用的な文書分別システムの制作のための,文書の形態素解析結果に含まれる未知語に対し,その未知語及び前後の形態素からインデックスタームを生成する方法を提案する.

footer 情報処理学会 セキュリティ プライバシーポリシー 倫理綱領 著作権について