FIT2017 第16回情報科学技術フォーラム

電子情報通信学会情報・システムソサイエティ
電子情報通信学会ヒューマンコミュニケーショングループ
情報処理学会

抄録

E-007
Word2Vecによる分類・推定における事前処理法の提案

○Tuan Dao Van・佐藤　浩（防衛大）

近年、SNS、株価、医学などを対象に、自然言語処理に関する様々な研究が行われている。英語はもちろん、日本語においては、 Wikipedia など、数多くの文書データが存在する。文書データから単語を抽出し、ベクトル化することによって分類、推薦などを行う方法が提案されており、実世界への応用もされている。ベクトル化手法としてはtf-idf法がよく知られているが、精度は高くない。既存研究ではWikipediaデータをWord2Vecで学習することで、従来手法であるtf-idf法より良い結果が得られたものの、精度が大きく上がることはなかった。本研究では、学習データに事前処理を施すことにより、機械学習を行なった先行研究より良い結果を得た。