4R-6
Web検索とECサイト、Wikipediaを利用した固有物名の抽出
○荒井 徹,大和田勇人(東理大)
日本語テキストを対象とした固有表現抽出は全体の抽出精度が90%
を超えるものが少なくまだ実用段階ではない。特に固有物名の抽出
精度はほとんどの先行研究で50%程度であり、他の固有物名と比較
すると著しく低い。そこで本論文では未だ抽出精度の低い固有物名
に着目し、抽出精度の向上を目指す。提案手法では形態素解析した
データをもとに検索語を作成し、フレーズ検索をする。そして検索
数がしきい値以上であれば、その後にECサイトやWikipediaを利用す
ることで固有物名の抽出精度を高精度にすることができる。そして
提案手法の使用後に既存の手法を使用することで、固有表現全体の
抽出精度も上がると考えられる。