単一文書要約の高度化に関する研究

菊池 悠太

(株)Preferred Networks

[背景]文書要約における技術やデータの蓄積
[問題]最新の枠組みと古くからの知見のギャップや訓練事例の不足など
[貢献]重要な2つの側面でそれぞれ有効な手法を提案
 
 文書要約とは,入力として与えられた文書に対し,その内容を簡潔にまとめた要約を作成するタスクである. 文書要約の問題を大きく2つに分けると,入力される文書がただ1つである単一文書要約と,同じトピックについて書かれた複数の関連文書の集合である複数文書要約が存在する.

 単一文書要約は1950年台から研究が行われている歴史の長い研究トピックであるが,2000年台初頭から近年までの文書要約の歴史は複数文書要約の歴史であったといえる.複数文書要約は近年のインターネットの発達に伴い大量の文書が収集可能になったことにより盛んに研究が行われるようになった. しかしながら,社会における単一文書要約への需要が減少したということはなく,両者は異なった使途や需要を持つ.技術的な側面においても,両者の問題はそれぞれ異なる特性を持っており,どちらも取り組むべき多くの課題が残っており,相互に補完しつつ両方のタスクで研究を進めることが重要である.

 本研究では,近年の技術の蓄積や大規模なデータの出現に着目し,単一文書要約に焦点を当ててその高度化に取り組んだ.具体的には,現在の単一文書要約において重要であるといえる2つの問題に取り組んだ.

 1つ目は,要約を組合せ最適化問題として定式化する近年急速に発達した枠組みと,古くから単一文書要約の研究を通して培われてきた知見を違和感なく融合させるための取り組みである.具体的には,文書から重要な文を選択する文抽出操作と,選択した文から更に不要な単語を取り除く文圧縮操作という2つの操作を最適化問題として定式化する要約手法に,古くから文書要約への有効性が確認されていた文書の修辞構造を文の間の依存関係という形で明示的に組み込む手法を提案した.提案手法は原文書と要約の間の一貫性,要約精度,要約の長さに対する柔軟性など,複数の利点があることを確認した.

 2つ目は,文書要約における機械学習の活用を加速させるため,従来活用されてこなかった大規模な要約資源(報道記事と人手によるその要約の対)を要約器の訓練データとして効率的に活用する取り組みである.目標となる非常にサイズの小さい評価セットと,それとは独立に作成された大規模な要約資源が存在するときに,後者を利用して評価セットにおける要約精度を向上させるための比較実験を行った.結果として,用意したすべての評価セットで安定して要約精度を向上させる手法を発見した.

 本研究では,単一文書要約に高度化おける2つの異なるレベルの課題に対し取り組み,それぞれの課題において有効である手法を発見した.

 近年の技術の蓄積や大規模なデータの出現など,単一文書要約をより高度化させるための材料が揃いつつあり,一部の研究者の焦点が単一文書要約へ再び集まり始めている.そのため今後は単一文書要約も再び盛り上がりを見せていくことが期待される.そのような状況において,本研究は今後の単一文書要約研究の発展につながると期待できる.

 
 

(2017年6月2日受付)
取得年月日:2016年12月
学位種別:博士(工学)
大学:東京工業大学



推薦文
:(自然言語処理研究会)


単一文書に対する抽出的要約手法を高度化するために,2つの大きな貢献をしている.まず,文抽出と単語抽出を同時に行う手法において,文間の依存関係を利用することで,一貫性の高い要約の生成に成功した.また,訓練データの不足という問題を解決するために,新聞記事データの多様な要約を有効利用する手法を開発した.


著者からの一言


単一文書要約にはいまだ多くの課題が依然として残っておりますが,こうして一つの博士論文をまとめることができて嬉しく思っています.本研究を進める上で指導教官をはじめ多くの方に大変お世話になりました.この場を借りて御礼申し上げます.