6P-01
多段型トピックモデルを用いたアンケート自由記述からの情報抽出
○徐  闖,湯川高志(長岡技科大)
アンケートは選択肢設問と自由記述設問があり、前者は容易に集計できるが、後者は人間が文章を読むことが必要で分析するコストが高い。ユーザは自由記述設問においても回答者が書く話題をある程度想定している。実際の記述は,ユーザが想定した話題の場合も多いはずだが、想定外の話題も含まれている。これらを分けてそれぞれ分析すれば、よりわかりやすく話題を抽出できると考える。
そこで、本研究では自動的に自由記述からユーザが意図した話題と想定外の話題を抽出することを目的とし、LDAトピックモデルを多段階に用いてそれぞれ抽出するシステムを提案する。
LDAは自由記述の集合から話題を抽出するが,抽出されるものは必ずしもユーザの意図した話題にはならない。想定内話題分析ではLDAを用いてユーザが意図した話題を抽出するために、想定した話題の特徴語のベクトルを強調して話題を抽出する。想定外話題分析では、抽出される話題の一貫性を表わすcoherence値を指標として用いて話題数の最適化を図った。
その結果、想定内話題が明確に抽出でき、想定外話題もユーザに分かりやすく抽出できた。

footer 著作権について 倫理綱領 プライバシーポリシー セキュリティ 情報処理学会