6T-2
単語共起を用いたベイジアンフィルタによる中国語文章フィルタリングについて
○鄧 德粤,吉村卓也,伊藤孝行,藤井雄太郎(名工大)
現在,中国では既に世界一のネットユーザーを擁する国となった.ブログや掲示板,SNSなど,ユーザーが自由に発信するサイトは急速に普及しており,多くのWebサイトでは,有害な情報に対しての対策をとっていない.そこで本稿では,中国語の有害な文書である負例と有害では無い文書である正例から,文書の形態素解析を行い,形態素から共起関係を抽出して辞書を作成する.作成した形態素辞書と共起辞書を用いて単語間の共起情報を用いたベイジアン分類手法を採用した中国語の有害な書き込みを自動的判別する情報フィルタリングを実装した.中国語での二単語共起分類手法の精度の高さは比較実験により検証した.