市民参加型史料研究のためのデジタル人文学基盤の構築

 
橋本 雄太
国立歴史民俗博物館 テニュアトラック助教
 
キーワード
クラウドソーシング デジタル・ヒューマニティーズ デジタルアーカイブ

[背景]地震史料を含む膨大な古文書がテキスト化されていない

[問題]現代人には解読困難な古文書史料
[貢献]教育サービスを組み込んだクラウドソーシング


 日本国内には江戸時代以前から伝来する膨大な点数の文献史料が保存されており,近年はデジタルアーカイブ化も活発に進められている.これらの文献史料は現代の我々にとっても有用なデータであるが,デジタルテキスト化され検索可能な状態に置かれている史料は全体の1%にも満たない.というのも江戸時代以前の日本語史料は手書きの「くずし字」で記述されており,活字向けOCRが適用できないためである.機械学習を利用した自動認識の研究も進められているが,モデルの訓練に必要な膨大な教師データの不足が課題となっている.そこでクラウドソーシング(市民参加)の手法を用いて史料を一挙に翻刻(文字起こし)し,歴史研究や機械学習の研究に活用するという方法が考えられる.しかしながら,江戸時代以前の日本語資料を対象にしたクラウドソーシングがこれまでに成功したことはなかった.その原因として,(1)現代人にとってきわめて困難なくずし字の解読や,(2)参加者の大量動員の必要性,(3)継続的な動機付けの必要性,などが挙げられる.

 本論文は,日本語の歴史資料を対象としてクラウドソーシングに取り組んだ最初の研究である.本研究ではクラウドソーシングに教育サービスのデザインを取り込むことで,上記の3課題の解消をはかった.具体的手順は以下の通りである.

 第一に取り組んだのは,「くずし字」の解読を支援するための学習用リソースの構築である.筆者は大阪大学文学研究科の協力を得て,3,000枚に及ぶくずし字の文字画像を収集し,2016年2月にiOS/Androidモバイルアプリ『くずし字学習支援アプリKuLA』として公開した.2012年2月の公開後,KuLAは12万回以上ダウンロードされている.また実験的に構築したKuLAのコミュニティモジュールにおいては,ユーザーにより300枚以上の文字画像と700件を超えるコメントが投稿されるなど,活発な参加行動が観察された.これらの結果は,(1)ユーザー人口の少ない古文書分野においてもLinuxやWikipediaのような参加型プロジェクトは実現可能であり,(2)ユーザーの参加行動を促す上で「学習」に立脚したデザインが有効に機能するという知見をもたらした.

 続いて上述のKuLAと連携し,教育サービスのデザインを取り組んだクラウドソーシングのプラットフォームの開発にあたった.これは京都大学古地震研究会による歴史地震史料の翻刻プロジェクト『みんなで翻刻』として2017年1月に公開された.『みんなで翻刻』は,参加者が互いの翻刻文を点検する相互レビューシステムを通じて,①成果物の品質向上,②社会的作用による参加者の動機づけ,③参加者の能力向上をはかっている.『みんなで翻刻』では,公開から2年4カ月の間に4,900名の参加登録者により16,104ページが翻刻された.入力文字数の合計は600万文字を超えており,翻刻文の精度も98.5%と許容範囲内の品質が実現されている.

 『みんなで翻刻』は前近代の地震史料を対象にしているが,本論文で提示した「教育ベース」クラウドソーシングのデザインは,タスク難易度の高い広い分野のクラウドソーシングに適用可能と考えられる.


 

 

 
 https://honkoku.org/

(2019年6月1日受付)
 
取得年月日:2018年7月
学位種別:博士(文学)
大学:京都大学



推薦文
:(人文科学とコンピュータ研究会)


本論文は,手書き古史料をボランティアの参加によりテキスト化するクラウド翻刻を,江戸期以前の崩し字史料に対して,初めて成功させたプロジェクトの報告と成功の要因分析である.日本における同分野のブレークスルーであり,その研究成果の意義はきわめて大きく,また,日本の同分野の将来への道を大きく開いた研究である.


研究生活


私の博士論文は日本ではまだ珍しいDigital Humanitiesと呼ばれる分野の研究です.博士後期課程から参加を始めた京都大学古地震研究会という団体での活動がベースになっています.先行研究が少ない分野で苦労も多かったのですが,この研究がきっかけでニコニコ動画のドワンゴとコラボすることになったり(『みんなで翻刻してみた』で検索してみてください),ニコニコ超会議にブースを出展することになったりと,刺激の多い博士課程ライフを送ることができました.

この場を借りて,指導教員の林晋先生と京都大学古地震研究会の皆様に深く御礼を申し上げます.