1Y-08
単語分散表現に基づいたSNSテキストデータからの隠語検出
○緒方敦望,樋口直哉,吉岡大三郎,堀部典子(崇城大)
近年、違法薬物取引の窓口としてSNSが利用される事例が増加している。これに対し、大学生らで構成されるサイバー防犯ボランティアでは問題投稿の通報活動を行っているが、隠語の多様化により人手での検出には限界があることが懸念されている。そこで本研究では、SNS「X」上の隠語を自動的に検出する手法を提案する。まず、XAPIで収集した約1.5万件の薬物関連ポストを用いてFastTextによる単語分散表現モデルを構築し、既知の隠語の特徴と類似語を抽出する。さらに、未知語近傍の単語探索により新たな隠語候補を推定する。最終的に、本手法を用いたボランティア活動支援ツールを実装することを目指す。