抄録
F-014
複数単語間の共起情報を用いた有害文書自動分類手法の提案
藤井雄太郎・吉村卓也(名工大)・伊藤孝行(名工大/東大)・安藤哲志(NTTデータ)
近年,掲示板やSNSのようなユーザーが自由に読み書きする事ができるWebサイトが増加している.また,Web上には未成年に悪影響を及ぼす書き込みが存在し,問題となっている.多くのWebサイトでは,人の目視による確認で対処しているが,人による目視では,情報量が膨大になった場合に処理が追いつかない等の問題が起こってしまう.そこで本稿では,計算機を用いて文書の特徴を抽出し,自動的に有害,無害文書の分類を行う手法を提案する.具体的な手法として,過去のSNS等に出現した有害文書と無害文書を,単語の共起の観点から計算機に学習させ,各文書の特徴を抽出し,文書の安全度を数値化する事で閾値と比較して分類を行う.