情報処理学会第73回全国大会講演要旨

1M-5

Web上のHTML文書を利用した辞書拡張

○伊藤　淳，筧　捷彦（早大）

本研究では，Web上のHTML文書をマイニングして辞書の拡張を行う．ここで取り上げる辞書とは，あるカテゴリ(ex. car maker)に属するキーワード群(ex. toyota, nissan, ford, ...)を集めたものを意味する．
既存辞書からシードとなるいくつかのキーワードを選択し，システムに問い合わせることで，Web上に存在するHTML文書から同一のカテゴリに属すると推定されたキーワード群が抽出される．抽出においては，HTML文書のDOM構造に着目した抽出法を適用することで，メモリ効率と精度の両面で既存手法を上回ることができた．

情報処理学会 第73回全国大会講演要旨

情報処理学会第73回全国大会講演要旨