抄録
E-007
Word2Vecによる分類・推定における事前処理法の提案
Tuan Dao Van・佐藤 浩(防衛大)
近年、SNS、株価、医学などを対象に、自然言語処理に関する様々な研究が行われている。英語はもちろん、日本語においては、 Wikipedia など、数多くの文書データが存在する。文書データから単語を抽出し、ベクトル化することによって分類、推薦などを行う方法が提案されており、実世界への応用もされている。ベクトル化手法としてはtf-idf法がよく知られているが、精度は高くない。既存研究ではWikipediaデータをWord2Vecで学習することで、従来手法であるtf-idf法より良い結果が得られたものの、精度が大きく上がることはなかった。本研究では、学習データに事前処理を施すことにより、機械学習を行なった先行研究より良い結果を得た。