情報処理学会第75回全国大会講演要旨

3P-8

コンテンツベース素性によるウェブスパム検出

○佐藤智博，青野雅樹（豊橋技科大）

ウェブでの情報検索手段として検索エンジンが広く用いられている．
しかし，検索エンジンによるランキングを不正に得る行為が横行しており，
これをウェブスパムと呼ぶ．そのコンテンツは機械生成的に単語を羅列したり，
近い意味の単語を組み合わせたりすることにより構成されていることが多い．
そこで本研究は，ウェブスパム検出の為の効率的なコンテンツベース素性を
抽出する手法を提案する．ウェブスパムコーパスに対し潜在的ディリクレ配分法(LDA)を
適用することで，トピック毎に単語群を抽出することができる．これらから単語を
選択しコンテンツベース素性とする．この素性を用いて機械学習による
ウェブスパム検出を行い，提案手法の有効性を確認した．

情報処理学会 第75回全国大会講演要旨

情報処理学会第75回全国大会講演要旨