情報処理学会 第82回全国大会 会期:2020年3月5日~7日 会場:金沢工業大学 扇が丘キャンパス 情報処理学会 第82回全国大会 会期:2020年3月5日~7日 会場:金沢工業大学 扇が丘キャンパス

7T-03
大規模文書コーパスから得た単語の分散表現を用いた文書群のラベル推定
○加登一成,伊東栄典(九大)
文書群をクラスタリングで同類􏰁部分文書集合に分割する際,出力後の部分文書集合の種類や意味は,人間が文書を読んで判定していた。この判定を機械的に行いたい。本研究では,SVM 分類器􏰁重要語と,単語􏰁分散表 現が近い単語をラベル候補する手法を提案する。実験として,分類問題用ラベル付き文書集合を用いて部分文書集合からラベルを推定した。具体例には英語のラベル付き文書群として The 20 newsgroups と Reuters21578 を用いた。また日本語のラベル付き文書集合として,ライブドアニュースコーパスを用いた。本発表では提案手法と用いた文書集合を説明し,実験結果の考察についても述べる。また比較実験のために作成したツールについても述べる。