抄録
CF-012
圧縮距離と分散表現を用いた電子メールのクラスタリング
○佐藤 哲(NHNテコラス)
電子メールのコンテンツは,自然言語に由来する表記ゆれ,引用等による長文書化,HTMLメールにより挿入される記号,機械的に生成された独自用語を含むログやアラートメールなど多様な要素を持ち,メール同士をコンテンツレベルで比較することが難しい.比較するためには,多様性に対応する汎用的なデータ分析技術が必要である.そこで本発表では,判断に大きなサイズのデータが必要だが学習を必要としない圧縮距離と,小さなサイズのデータに対しても有効だが学習が必要な分散表現技術を組み合わせることで,2つの手法の短所を相互に補い,多様なコンテンツに基づき電子メールを分類する汎用的な手法を提案する.