History-related knowledge extraction from temporal text collections

（邦訳：時系列テキストコレクションからの歴史関連知識の抽出）

Duan Yijun
産業技術総合研究所人工知能研究センター Specially Appointed Researcher

キーワード

Computational History
（計算史）
Archive Mining
（アーカイブマイニング）
Knowledge Extraction
（知識抽出）

［背景］ディジタル化された過去の文書が大量に蓄積され，大規模な分析による歴史的知識の掘り起こしが可能になった

［問題］歴史関連資料の増加によって，情報過多となり，過去の情報の理解が難しくなった
［貢献］大規模テキストコレクションから歴史関連の知識を自動的に抽出するデータマイニング技術を提案

歴史は，私たちの過去に起こったことを記録したものです．歴史から学べることは，驚くほど多く，多様な教訓があります．たとえば，現代人は過去を高度な技術と結びつけることはほとんどありませんが，過去の技術を見ることで，現代の技術が古代世界とどのように結びつき，どのようにして生まれてきたのかを知ることができます．過去のディジタル化された大量の文書が蓄積されてきたことで，大規模な分析によって歴史の知識を掘り起こすことが可能になってきました．

しかし，一般ユーザが歴史を学ぶ際には，以下のような根本的な課題があると考えています．たとえば，Webの急速な発展に伴い，歴史関連の文書がどんどん増え，情報過多になっていること．第二に，過去の情報を理解することは，特に若い世代にとっては困難な場合があること．第三に，歴史文書の中には，通常，その背景にあるパターンが存在していること．たとえば，日本の歴史の中の潜在的な時代．このような高度で有益な情報を手作業で把握するには，膨大な認知的努力が必要となります．

このような課題を克服するために，本論文ではいくつかの研究課題を提案しています．第一に，複数のエンティティの歴史の要約を生成することからなる新しいタイプの要約タスクを紹介します．第二に，カテゴリの特徴付けと理解のため，エンティティを歴史ベースのカテゴリに分類するという新しい研究課題を紹介します．たとえば、博多や長崎のように、過去に日本の国際交流を高める上で重要な役割を果たした都市で構成されるカテゴリ．第三に，比較年表の要約というタスクを紹介し，それを解決するための効果的なアプローチを提案します．第四に，長期ニュースアーカイブに保存されている過去のニュース記事を，ユーザが発行したクエリに基づいて要約する問題にアプローチします．我々が提案した要約の比較特性は，時間的に離れた2つの期間における重要な比較的側面を発見することを可能にします．このような新しいタイプの歴史文書アーカイブへのアクセスは，傾向分析，歴史的類推の決定，教育・娯楽目的などのニーズに応えることができます．

（2020年5月29日受付）

取得年月日：2020年3月
学位種別：博士（情報学）
大学：京都大学

推薦文：（データベースシステム研究会）

歴史は過去に起こったことの記録であり，そこから多くの教訓を学ぶことができます．この論文では，歴史に関する大規模なデータから有用な知識を理解，要約，抽出するための新しい計算手法を提案し，プロのユーザと同様に一般ユーザにもそのようなデータを効果的に利用できるようにすることを目的としています．

研究生活：

博士号取得の旅は，私の人生の重要な転換期です．長い曲がりくねった旅には多くの不確実性が伴うため，予測不可能な旅となりました．留学生である私の視点から見ると，学問的な課題と人生の転機の両方を伴うため，不確実性は倍増します．私が直面した課題には，厳格で集中的な研究プロセス，学術論文の執筆，出版の要件，学会発表，そして博士論文を無事に仕上げることが含まれています．私にとって博士号を取得することは，私の人生の中で最も困難であり，やりがいのある経験の1つでした．

私の指導教員であるアダム・ヤトフト教授，田中克己教授，吉川正俊教授には，博士号取得までの全過程において，洞察力に富んだ指導をしていただき，本当に感謝しています．私の博士としての経験を生産的なものにするために時間，アイディア，資金を提供してくださいました．また，この5年間の楽しい時間を過ごした研究室の仲間，田中研究室と吉川研究室のメンバは，私の京大での個人的かつ研究の時間にも多大な貢献をしてくれたことに心から感謝しています．

2019年度へ戻る

このページの先頭へ