3Q-01
文書分別のための未知語の索引化手法の評価
○大西 周,山田剛一,絹川博之(電機大)
 文書分別のシステムを作成する際,索引作成のため形態素解析エンジンを活用することが多い.しかし,既存の形態素解析エンジンでは,ツール内辞書に存在しない単語は正しい解析を行えず未知語として出力される.従来,未知語が出現した際は,新たな単語を辞書に登録することを前提としているが,新語は次々に生まれ,辞書登録が追いつかなくなる.
 本研究では,汎用的な文書分別システムの制作を最終目的とする.未知語を含む文書を形態素解析し,結果の形態素の中の未知語を索引化する手法を提案すると共に,提案手法を評価する.

footer 情報処理学会 セキュリティ プライバシーポリシー 倫理綱領 著作権について