Automatic Summarization on Various Domains with Combinatorial Optimization and Machine Learning

(邦訳:組み合わせ最適化と機械学習による多様な分野に対する自動要約)
 
西川 仁
NTTメディアインテリジェンス研究所 研究員

[背景]インターネットの普及に伴って生じた,要約対象となるテキストの書き手,種類,量の増加
[問題]多様なテキストを要約の対象とした際に生じる,要約に要する時間の増加と要約の内容性および読みやすさの低下
[貢献]テキストの自然な順序付けによる読みやすさの改善,分野適応による異なるトピックのテキストの要約品質の向上,組み合わせ最適化の知見を援用した要約速度の向上
 
 自動要約は,計算機にテキストを短く簡潔に要約させる技術である.テキストの主な流通の経路がインターネットに移り,電子化されたテキストを経由して情報を得る機会が増えた現在,読み手があるテキストを読むべきか否かを判断したいときや,長いテキストに含まれる重要な情報を短時間で把握したいときに,自動要約は重要な役割を果たす.

 インターネットが普及した結果,我々をとりまくテキストの性質に大きな変化が生じた.その結果として,自動要約の新しい要素技術が必要となっている.本論文ではそれら新しく生じた課題を扱い,それらに対処する手法を提案する.

 まず,テキストの書き手が多様化した結果,自動要約の結果として生成される要約の読みやすさ(可読性)が悪化しやすくなった.これまで,自動要約の対象となっていたテキストは新聞記事や科学技術論文などが中心であり,これらのテキストは一定の訓練を受けた書き手によって書かれている.しかし,インターネットの普及に伴い特に訓練を受けてない個人が自由にテキストを通じて情報発信を行うようになったため,これらのテキストをこれまでの手法で要約した場合,可読性の点において問題が生じやすくなった.

 次に,要約の内容に関する品質の問題である.要約の対象となるテキストの種類が大幅に増加したため,要約の対象となるトピックも必然的に増加した.自動要約において,幅広いトピックを網羅するためには,それぞれのトピックにおいて人手にて事前に正しい要約(参照要約)を作成し,それらから学習を行い,どのような要約を生成すればよいか機械を訓練する必要がある.しかし,通常,新しい訓練事例を作成するためには多大なコストを要するため,参照要約を用意できないことも多い.そのような場合,高い品質の要約を生成するのは難しい.

 最後に,要約の速度の問題である.インターネットの普及に伴って要約の対象となったテキストの規模はこれまで要約の対象として扱ってきたテキストの規模とは比べ物にならないほど大規模であり,これまでと同様の方法で要約を行うと要約の生成に多大な時間を要する恐れがある.

 本研究では,これらの問題に以下のように対処した.まず,要約の可読性を向上させるために,重要文の選択とそれらの順序付けを同時に実施できる要約モデルである,景品収集巡回セールスマン問題に基づく要約モデルを提案した.この要約モデルに基づいて要約を行うことで,入力されたテキストに含まれる重要な情報をできる限り要約に含め,かつ要約を構成する個々の文が自然に順序づけられた要約を生成することができる.実際に提案した要約モデルを利用し要約を生成することにより,可読性が改善された要約が生成できることを示した.

 次に,要約の内容に関する品質の問題においては,分野適応の技術を導入し,異なるトピックの訓練事例を利用して要約したいテキストのトピックのための訓練を行えるようにした.これにより内容においてより品質の高い要約を少ない訓練事例で生成できるようことを示した.

 最後に,要約生成の高速化のため,組み合わせ最適化分野の知見を援用し,複数文書要約において広く用いられている要約モデルである最大被覆問題に基づく要約モデルに類似しているが,より高速な計算が可能な新しい要約モデル,冗長性制約付きナップサック問題に基づく要約モデルを考案した.提案した要約モデルを利用することで,広く用いられている既存の要約モデルと同等以上の品質を持つ要約をより高速に生成できることを示した.

 本論文で示したこれらの手法は近年生じてきた新しい種類のテキストに対する自動要約の端緒となるものであり,かつ今後の自動要約の発展の基礎となるものである.
 


(2014年5月29日受付)
取得年月日:2013年9月
学位種別:博士(工学)
大学:奈良先端科学技術大学院大学



推薦文
:(自然言語処理研究会)


文書自動要約において,要約文の抽出と並び替えを同時に行う手法,ドメイン適応,冗長性制約付きナップザックモデルとラグランジュヒューリスティックにより高速・高品質な要約を探索する手法を提案している.これらの手法は,新規性,有用性,実用性において優れており,自動要約研究の最先端を拓くものである.


著者からの一言


会社員との二足の草鞋を履いていたため,博士論文を執筆する時間の捻出に苦労しました.2013年の晩春から初夏にかけて,夜な夜な梅雨の雨音にキーの音をまぜていた日々が思い出されます.自動要約が有用な技術であることは言を俟たず,今後も研究を進めるとともに,技術を社会に広く普及させられるよう努力して参ります.