1M-5
Web上のHTML文書を利用した辞書拡張
○伊藤 淳,筧 捷彦(早大)
本研究では,Web上のHTML文書をマイニングして辞書の拡張を行う.ここで取り上げる辞書とは,あるカテゴリ(ex. car maker)に属するキーワード群(ex. toyota, nissan, ford, ...)を集めたものを意味する.
既存辞書からシードとなるいくつかのキーワードを選択し,システムに問い合わせることで,Web上に存在するHTML文書から同一のカテゴリに属すると推定されたキーワード群が抽出される.抽出においては,HTML文書のDOM構造に着目した抽出法を適用することで,メモリ効率と精度の両面で既存手法を上回ることができた.