A Study on Encoding Natural Language into Distributed Representations

(邦訳:自然言語の分散表現へのエンコードに関する研究)
 
高瀬 翔

NTTコミュニケーション科学基礎研究所

[背景]単語の分散表現構築手法の発展
[問題]句や文の分散表現をどのように計算するか
[貢献]単語の分散表現合成手法の提案と応用タスクでの評価
 
 自然言語で書かれた文書の意味をモデル化することは,自然言語処理における主要な課題の一つであり,関係抽出,含意関係認識,言い換え抽出など,多くの応用タスクを解くために,なくてはならない技術である.文書の意味を計算するためには,文書を構成する単語や句の意味を計算できる必要がある.たとえば「タバコは肺癌を引き起こす」という文と「喫煙は癌の危険性を高める」という文について,主語である「タバコ」と「喫煙」,述語である「引き起こす」と「危険性を高める」,目的語である「肺癌」と「癌」がそれぞれ似た意味であることが分かれば,この2つの文がほとんど同じ意味であることが分かる.本研究の目的は,文書の意味を理解するために,上記のような,単語や句の意味を計算可能なモデルを構築することである.

 単語の意味については,自然言語処理では伝統的に,似たような文脈で出現する単語は似た意味を持つという,分布仮説にもとづき,意味を表すベクトルを構築してきた.これに加えて,近年では,各単語の意味を表すベクトルとして,分散表現という,低次元で密な実数値のベクトルをコーパスから学習する手法が提案されているなど,盛んに研究されている.しかしながら,複数単語からなる句の意味をどのように計算するかについては,ほとんど研究が進んでいないのが現状である.

 そこで本研究では,句の意味表現(分散表現)を構成単語から計算することに取り組み,単語の分散表現を合成するモデルを2つ提案した.1つ目は,「危険性が減る」という句については「危険性」というネガティブな極性が「減る」で打ち消されている,ということを計算する,ポジティブ/ネガティブなど意味の極性変化を扱ったモデルである.このモデルの実験結果は,意味の極性変化を扱うためには,分散表現の各次元への重みが重要であると示唆している.また,句の意味計算においては,前置詞や冠詞より内容語の方が重要であろうという直観がある.これらを考慮し,単語の意味的重要性を扱えるモデルを提案した.これは,図に示したように,句を構成する単語を順に読み込んで計算していくモデルであり(図ではincrease the risk ofという句の分散表現を計算している),各単語の意味的重要性(正確には,各単語の分散表現の各次元への重み)をその単語の分散表現と,すでに読み込んだ単語列の分散表現から計算する.言い換えれば,単語の意味と,すでに読んだ単語列の意味から,その単語の重要性を計算するモデルである.

 また,単語の分散表現の性能を評価するデータセットは数多くあるが,句の意味計算の性能を評価するためのデータセットはきわめて少ない.そこで,本研究では,句と句の間に意味的類似度を付与したデータセットを構築し,句の意味計算性能の比較を可能とした.実験を通して,提案手法が句の分散表現を精度良く合成できていることを示した.さらに,提案手法によって合成した分散表現を用いることで,関係分類の性能が向上することを示し,精度良く句の分散表現の計算を行うことにより,応用タスクの性能も向上することを明らかにした.

 

(2017年5月31日受付)
取得年月日:2017年3月
学位種別:博士(情報科学)
大学:東北大学



推薦文
:(自然言語処理研究会 )


本論文は,単語の分散表現(意味)から句の分散表現を合成する研究と,句の分散表現から文を生成する研究に取り組んでいる.いずれも,深層学習に基づく新手法を提案しており,自然言語処理分野最難関の国際会議ACLやEMNLPに採択されたたけでなく,言語処理学会年次大会での最優秀賞を受賞するなど,国内外で高い評価を得た.


著者からの一言


評価データも定まっていない句の意味計算の研究への取り組みは暗中模索の感がありましたが,指導教員である乾先生,岡崎先生をはじめ,研究室の方々に支えていただき,論文を完成させることができました.大変お世話になりました.これからは本研究を発展させ,翻訳や要約などの応用につなげていきたいと考えています.