Text Simplification without Simplified Corpora

(邦訳:平易なコーパスを用いないテキスト平易化)
 
梶原 智之

大阪大学データビリティフロンティア機構(特任助教)

[背景]子どもや言語学習者など人々の文章読解を支援するテキスト平易化
[問題]英語以外の言語ではテキスト平易化モデルの訓練用データを利用できない
[貢献]訓練用データの自動構築手法を提案し,テキスト平易化の多言語展開に貢献
 
 テキスト平易化は,入力されたテキストの意味を保持しつつ平易に書き換えるという自然言語処理タスクである.システムは,子どもや言語学習者をはじめとする人々の文章読解を支援し,他の自然言語処理タスクの性能改善にも寄与する.テキスト平易化は,難解な文から平易な文への「単言語翻訳」と考えることができ,機械翻訳に似た要領で実現される.つまり,意味的に等価な難解な文と平易な文のペアを大量に用意し,モデルに変換規則を学習させていく.

 これまでテキスト平易化は,データが豊富な英語を中心に研究されてきた.たとえばWikipediaには,500万記事を超える英語で書かれたテキストと,10万記事を超える平易な英語で書かれたテキストが存在する.これらのうち,同じ見出しを持つ記事のペアから,テキスト平易化モデルの訓練のために必要な「意味的に等価な難解な文と平易な文のペア」を大量に収集することができる.しかし,英語以外の言語では,語彙や文法を制限して平易に書かれた大規模テキストは利用できない.そのため,多くの言語ではテキスト平易化モデルの訓練のために必要なデータセットを用意できず,人々はテキスト平易化の恩恵を受けることができない.

 本研究では,大規模な訓練用データセットを擬似的に自動構築することでこの問題に対処し,テキスト平易化の多言語展開に貢献した.平易に書かれた大規模テキストを入手することが難しい一方で,普通のテキストデータは多くの言語で大規模に利用可能である.そこで本研究では,「①文の難易度推定」と「②文の類似度推定」を組み合わせて,図に示すように普通のテキストデータから難易度の異なる文のペアを収集する手法を提案した.大規模な普通のテキストデータの中には,たまたま難しく書かれた文も大量に存在するが,たまたま易しく書かれた文も大量に含まれる.そこで①の難易度推定では,大規模なテキストデータを,難解な文集合と平易な文集合の2つのサブセットに分割した.このような大規模な2つの文集合の中には,たまたま同じようなことを記述している文のペアが含まれることがある.たとえば,共通の事物や関連する事物についての複数の言及の中に,同じ内容を表現する難解な文と平易な文が存在する場合がある.②の類似度推定では,難解な文集合と平易な文集合の間で,このように同義な関係にある文のペアを見つけた.

 上記のように,本研究では,テキスト平易化モデルの訓練用データを大規模に自動構築した.英語における実験では,提案手法によって自動的に構築された訓練用データから学習したモデルが,既存のモデルと同等の性能でテキストを平易化できることが明らかになった.そして日本語においても同様に訓練用データを自動構築し,テキスト平易化が実現できることを確認した.本研究の成果をもとに,テキスト平易化の多言語展開が期待できる.また,本研究の応用として,他の自然言語処理タスクにおいても訓練用データを自動構築できる可能性がある.特に機械翻訳では,すでに本研究を応用して訓練用データを拡張し,翻訳品質が改善されたという報告がある.

 
 

(2018年5月29日受付)
取得年月日:2018年3月
学位種別:博士(工学)
大学:首都大学東京



推薦文
:(自然言語処理研究会)


本論文は,自然言語処理におけるテキスト平易化というタスクに対し,平易なコーパスを用いないテキスト平易化手法を提案し,平易なコーパスが存在しない言語でも高精度にテキスト平易化を行える可能性を示した.これは工学的に価値ある興味深い成果であり,当研究会の学術領域に大きく貢献した.


研究生活


私は趣味で剣道をするのですが,道場で小中学生に剣道を教えるときに,子どもたちが読めるような平易に書かれた教科書がほしいと思っていました.大学では自然言語処理の研究室に配属されたので,自然言語処理の技術を使ってこの願いを叶えようと思い,テキスト平易化の研究をスタートしました.

博士論文の中心となるアイディアを考えたのは博士課程1年目の後半で,海外の大学に滞在して研究をしていた時期でした.滞在先で新しい研究テーマに取り組む中でヒントを得たことと,ゆっくりと研究の進め方について考える時間を得たことで,博士論文のアイディアをまとめることができました.

私は博士課程の3年間に,指導教員のほかに3つのグループの研究者と一緒に研究させてもらう機会をいただきました.今後は先輩研究者の皆様から学んだ技術や思想を洗練し,継続的に研究成果を残すとともに,後輩研究者にも多くのことを伝えて恩返しをしていきたいと思います.