会誌「情報処理」Vol.62 No.5 (May 2021)「デジタルプラクティスコーナー」

オープンサイエンスと研究データ管理の動向

青木学聡1

1名古屋大学 

研究成果を広く公開しその利活用を促すオープンサイエンスは,新しい研究分野・イノベーションの創出をもたらすものとして,アカデミアの内外を問わず注目を集めている.また,一連の研究活動に沿って実施される研究データ管理手法も,ディジタル化の進展や研究活動の透明性向上などの点から,見直しが進められている.本稿では,2021年現在におけるオープンサイエンス,研究データ管理の実現に向けた実践的な取り組みを多面的な視点で紹介する.

1.オープンサイエンスと研究データ管理

1.1 オープンサイエンス

2000年台初頭より興った研究論文へのアクセス障壁を下げる「オープンアクセス」運動は,2010年頃より,さらに多様かつ根源的な研究成果である研究データの公開・流通という「オープンサイエンス」へと拡大した.「オープンサイエンス」を語義通りに解釈すれば「開かれた科学」である.Gutenbergから始まる印刷技術の発展に伴う情報の大量複製,配布を端緒とし,17世紀中ごろに興った学術雑誌の発行,流通による知の共有ネットワークの構築がオープンサイエンスの開始とみなされることが多い.多くの情報がディジタル化され,これがインターネットを通じ流通することが当たり前になった現在,オープンサイエンスは,学術情報を「より多量に」「より広範囲に」「より高速に」伝えるという,量的な拡大に加え,これらを計算機により高速・多面的に処理するという,情報の利用法という質的な変革も含意する[1].特に2019年より世界的に感染が拡大した新型コロナウイルス(COVID-19)問題に対して,プレプリントを含む論文や,ゲノム解析結果などの多量の研究データが時々刻々で公開された.これらが即時に共有されることで,対策が急速に進められている[2].

COVID-19へ対応にもあるように,オープンサイエンスは「ビッグデータ」「AI」「Society 5.0」と同様に,ディジタル技術の発展に伴う社会変化,地球的課題への貢献を表現するキーワードとなりつつある.政府は2013年のG8科学大臣会合を皮切りに,オープンサイエンスが科学技術とイノベーションの発展や,透明性の向上に資することを認識し,政策化を進めている.近年では,内閣府が「統合イノベーション戦略」[3]においてオープンサイエンスの推進を明記している.これに対し,日本学術会議は2020年に「オープンサイエンスの深化と推進に向けて」を発表し[4],オープンサイエンスと研究データ管理について,日本の学術が直面している課題の分析と今後の方針を提言として取りまとめている.

1.2 研究データ管理

本稿において「研究データ管理(Research Data Management, RDM)」とは,「研究の開始から終了までを通じ,どのような研究データを収集・生成するか,またこれらのデータをどのように解析,保存,共有,公開するか,などを定め,実践すること」としている.図1に,研究プロセスに沿った,研究データ管理に求められる主な要素を簡潔に示す.この図にあるように,RDMは学術における研究活動の総称的な概念そのものであり,研究者は研究活動を実施する限り,暗黙的にRDMを実践している,といえる.また,「研究データ」とは公開・非公開,ディジタル・非ディジタルといった区別を問わず,研究活動を進める上で利用,生成する情報全般,という広い対象を指すことが多い.具体的には「資料」「史料」「研究ノート」「アンケート調査」「ソフトウェアプログラム」「論文・レポート」「データベース」など,学術分野に応じてさまざまである.

研究プロセスに沿った研究データ管理の主な要素(dx.doi.org/10.6084/m9.figshare.4003857.v1 を参考に作成)
図1 研究プロセスに沿った研究データ管理の主な要素(dx.doi.org/10.6084/m9.figshare.4003857.v1 を参考に作成)

今日,明示的に「研究データ管理」という言葉が使われる場合,RDMにかかる個別要素を明確にし,また共通化する手法を開発し,適用することを指す.たとえば,「オープンサイエンス」は,研究により得られた知見を広く公開,共有することで,研究データの永続性を保証するとともに,この研究データが参照されることで,後継の研究活動が効率的に実施できるようにするための手段である.研究データの公開に限らず,研究途上における研究データの取り扱いを明示することは,研究の再現性,継続性の向上に貢献する.これに加え,研究データの参照,利用,開示において,機密保持,情報倫理,各種法令などへの対処もRDMの一部と考えることもできる.この点においては,一般企業における情報セキュリティ戦略,NDAを含む知財管理などの課題とも親和性が高いといえる.

RDMの明示は,研究活動の効率化とともに,記録保持の観点から再現性の保証,ひいては研究透明性の向上に貢献すると考えられる.特に,公的資金を用いた研究における説明責任の観点から,研究データ管理計画(Data Management Plan, DMP)を研究計画とともに制定することが欧米諸国を中心として広まっている.日本においても,JST[5],AMED[6],NEDO[7]などが主催する大型研究プロジェクトにおいては,DMP制定が求められるようになっている.

このように研究データ管理は,研究活動全般にわたる研究の進め方の再検討を促すものでもある.一方,「研究データ管理」という言葉は,「研究公正の維持」と「研究データ公開」といった限定的な概念のみに強く紐づき研究者に伝わることで誤解を生むこともある.特に日本国内においては,2014年前後に大型の研究不正事案が相次ぎ発覚したことで,研究公正強化[8]と関連付けられて研究データ管理を印象付けることとなった.また,研究データ公開についても,「すべての」データを公開することと受け取られるなど,データを公開することの具体的な行為やその意義が理解されておらず,反発を受けることもある[9].研究者,特にPrincipal Investigator (PI) として研究を主導する者は図1に示す以外に大小さまざまな場面で研究データの取り扱いについて選択を迫られることとなる.意思決定は管理(Management)の重要な要素であるが,これらの決定を逐一意識的に実施することは,研究者にとっては大きな負担であり,RDMに対し心理的障壁の1つとも言える.機関やコミュニティがRDMを支援する行為は,研究データの取り扱いに際し,研究者が対応可能な選択肢を合理的理由とともに提示することでもある.

1.3 FAIR 原則

FIAR原則[10],[11],[12]とは,オープンサイエンスの趣旨に従い,研究データが適切に公開され,これが利用・維持されるための目標として定められた.FAIRのそれぞれの文字は,Findable(見つけられる),Accessible(アクセスできる),Interoperable(相互利用できる),Reusable(再利用できる)に対応し,データまたはメタデータが備えるべき要件を端的に表現している.たとえば,Findableを実現するためには,

  • F1.(メタ)データが,グローバルに一意で永続的な識別子(ID)を有すること.
  • F2.データがメタデータによって十分に記述されていること.
  • F3.(メタ)データが検索可能なリソースとして,登録もしくはインデックス化されていること.
  • F4.メタデータが,データの識別子(ID)を明記していること.

が挙げられている.実際,FAIR原則を実現するには,研究者が公開しようとする個々のデータセットに対し,「永続的識別子(Persistent ID, PID)の付与」,「メタデータとデータ構造の記述」,「リポジトリを通じた公開と共有」,「利用時に適用するライセンスの指定」などの事項を,データの性質や学術コミュニティの要請に従い,具体化する必要があり[13],さまざまな試みが進められている.

たとえば,「どうすればFAIR原則を満たしたといえるか」という問題は,データ提供者,データリポジトリ運営者双方にとって興味深いテーマである.FAIRMetricsの活動[14]では,FAIR原則への適合度を客観的に評価するための手法を提案している.FAIRMetricsの活動は最初,大手データリポジトリに対し,FAIR原則の個々の項目を達成するために,どのようなルールを設け公開しているか調査したのち,各データセットがFAIRnessの点から備えるべき要件を提案している.この要件の記述方法も,FAIR Maturity Indicator (MI)として書式化することで,評価方法の更新,追加への柔軟な対応,機械可読性の確保と自動化を試みている.また,FAIRnessを維持するためのデータリポジトリが守るべき指針として,透明性(Transparency),責任(Responsibility),ユーザ中心(User focus),持続性(Sustainability),技術(Technology)に分類した,TRUST原則が提案されている[15],[16].

上記の例も含め,研究データのFAIRnessの実現に向けた多様なステークホルダの取り組みを協調して進めるため,European Open Science Cloud (ECOS)[17],[18]を中心とする,GO FAIR Initiative [19]が設立されている.現在,GO FAIRは,Technology(情報技術),Culture(ポリシー策定とインセンティブの付与),Training(スキル開発と普及教育)を中心テーマとして,Implementation Memberによるネットワークを構築している.また,欧州だけでなく米国,ブラジルでのNational Officeの設置,CODATA(Committee on Data for Science and Technology),World Data System(WDS),Research Data Alliance(RDA) との連携[20]など,その活動の場を拡大している.

一方,これらの取り組みは巨大データリポジトリの運用や国際協調からの視点が強く,中小のリポジトリ運営者や個々の研究者がどのようにFAIR Dataに取り組むべきか,という指針が見い出されにくい.先進的な議論とともに,裾野の拡大や,入口を増やす方策の検討も必要である.上記で説明したFAIR原則にかかわる活動は,「社会あるいは学術コミュニティに対し」オープンなデータの取り扱いを想定している.これを「研究プロジェクト内でFAIRである」,「将来の自分自身に対しFAIRである」など,データを利用する対象を限定し,そのスコープの中でFAIRnessを実現する手法として還元できるのであれば,研究者が行う常時の研究活動が,研究データ管理の改善とオープンサイエンス対応へとシームレスにつながり,研究者と学術分野双方の利益につながると考えられる.

2.ステークホルダごとに見た国内取り組み状況

いうまでもなく,RDMを主体的に実施し,公開・非公開を含め研究データの処遇を定めるのは研究者自身である.学術コミュニティや,大学をはじめとする研究機関は,研究者によるこれらの活動を支援することが第一義である.オープンサイエンスと研究データ管理の実践において,主要なステークホルダの関係を図2に示す.ここでは,主要なステークホルダとして「研究者」「学術コミュニティ(2.1節)」「学術機関(2.2節)」「分野・機関横断連携(2.3節)」を取り上げ,それぞれが掲げる主目的とそのために実施できる内容を記している.これ以外のステークホルダには,「政策・研究資金分配機関」「市民研究者」などが想定される.この図では,研究者は研究分野に近いコミュニティと研究者が所属する機関双方がRDMに求める要件を理解し,適切な方法を選びながら研究データ管理を実施する必要があることを示している.なお,図2では直接表現されていないが,研究者個人のWebページでのデータ公開や,機関が把握できないアカウントでのクラウドストレージ利用など,学術コミュニティ,学術機関が指定する方法の枠外とされるRDMの実施も現時点において多数存在するが,これらは研究者自身によるエコシステムの維持コストと,個人情報保護など機関のガバナンスの問題から徐々に縮小されるものと考えられる.

オープンサイエンス・研究データ管理に関係する主なステークホルダの相関
図2 オープンサイエンス・研究データ管理に関係する主なステークホルダの相関

オープンサイエンスや研究データ管理が注目されるに従い,学術コミュニティと学術機関それぞれが求める,研究者への要求はより緻密になっている.また,機関間連携や分野間融合など,複数の価値観やルールが衝突し,それを解消する必要も生じる.「分野・機関横断連携」のステークホルダは,互いの実施状況の調整を通じて,共通概念の確立,情報システムの開発や運営指針の統一など,さまざまな領域で共通化を推進する立場である.前項に挙げたFAIR原則の制定はこの活動の一環であるともいえる.一方,「分野・機関横断連携」と「研究者」との間に直接的な交流は少なく,お互いが見えないことが危惧される.学術コミュニティ,学術機関との密接な連携を介し,相互理解の醸成が望まれる.

2.1 学術コミュニティでの取り組み状況

FAIR原則など,オープンサイエンスに関する議論は欧米で先行しているのが実情である.しかしながら,我が国においても「オープンサイエンス」や「研究データ管理」の用語,概念が成立する以前より,研究データの蓄積や公開の取り組みは学術分野を問わず行われてきた.特に,国立研究開発法人,大学共同利用機関法人,各大学の共同利用・共同研究拠点,研究センタなどは,それぞれの専門性を活かした学術データベースを整備し,利用に供している.また,図書館や博物館においても,所蔵するコレクションをディジタル化し,これを公開する事例が増えている.この中には,長年の知見を活かし,データベースの連携,データアクセスのためのインタフェースの整備,利活用事例の収集と普及といった,研究データを中心としたエコシステムやフレームワークを構築し,運営しているものも数多く存在する[21],[22].本特集号においても,それぞれの分野,機関におけるこれまでの取り組み事例が多数報告されている.

学術コンテンツを利用するための動線の強化も課題の1つである.多くの場合,新しい分野に関するデータの所在は,検索エンジンの結果に頼ることになるが,適切なコンテンツを見い出すことは困難が伴う.コンテンツのプレゼンスを高めるためには,FAIR原則の第1項目がFindableであるように,PIDの付与,メタデータ記述の充実,安定運用されるデータリポジトリの利用,データリポジトリのレジストリへの登録,さらに研究データを利用する際のレファレンス機能の充実,権利やライセンス問題の調整などが含まれる.ただし,いずれの作業も,研究者単独では実現が困難で,データリポジトリ運営者など,専門スキルを持った人員の協力が不可欠となる.

実際に研究コンテンツを有機的に連結し,データの露出を高めるとともに,その利用機会を高める取り組みも各所で進められている.中でも2020年8月に国立国会図書館が公開したJapan Search[23]は,さまざまなディジタルアーカイブと連携し,メタデータを集約するつなぎ役となることで,横断的なコンテンツの検索と利用を促進するプラットフォームを提供し,注目を集めている.また,Japan Searchの構築に先立ち,ディジタルアーカイブジャパン推進委員会・実務者検討委員会がまとめた調査報告書[24]では,ディジタルアーカイブ運営,データの長期保存,公開と利活用,法的基盤の整備など,ディジタルアーカイブのネットワーク構築に向けた課題とその解決への行動提案が詳細に記されており,他の分野でのデータ連携プラットフォームの構築,運用においても多くの示唆を与えている.

2.2 学術機関での取り組み状況

学術機関が実施する研究データ管理については,2014年前後に多発した研究不正事案に対する研究公正強化を目的として,規程レベルで見直しが行われた.ただし,その多くは「発表した成果の正当性を保証する研究データを研究者の責任でもって保存する」というものであり,大学のようにさまざまな学術分野を抱える機関では,学術分野ごとの慣習の差異などの理由により,機関レベルで実質的な取り組みにまで至っている事例は少ない.

研究データ管理支援体制の不備の一例として,科学研究費など,活動期間が限られたプロジェクトを通じて構築されたデータベースが,プロジェクトの終了や担当者の異動・退職などの理由により維持されなくなるという問題がある[25],[26].国内ではオープンアクセスリポジトリ推進協議会(JPCOAR)が,維持が困難になった学術コンテンツを図書館リポジトリなどに移管する,「データベース・レスキュー」の取り組みを進めている[27].JPCOARが直接保護できるデータベースは限られるものの,この活動を通じて得られたノウハウを多く研究者や機関に広く展開することで,多くのデータベースが延命することが期待される.一方,この取り組みは過去のデータセットに対する措置であり,これからの研究プロジェクトについては,成果の永続性を担保する方法をあらかじめ用意し,これをDMPで明記し,実践するといった対応が求められることとなる.

学術機関側もこれらの状況に合わせて,オープンサイエンスに基づく研究データの公開と利活用,ひいては機関での学術コンテンツ戦略への対応を検討する段階にある.2018年内閣府により「国立研究開発法人におけるデータポリシー策定のためのガイドライン」が策定され[28],研究開発法人が先行する形でデータポリシーの整備が進めている.また大学においても研究データポリシーを策定する動きもある[29],[30].

2.3 分野・機関横断連携,共通基盤化の状況

研究者,学術分野,機関間での連携の要求に従い,ポリシー,サービス,システムといったさまざまなアーキテクチャレベルでの共通化が進むこととなる.たとえば,研究室レベルでは,ソースコード管理(例:github.com),文献管理(例:Mendeley)といった個々の機能ごとにプラットフォームを選定することも多い.このほかには,測定・分析過程の自動化を進めるラボラトリ情報システム(Laboratory Information Management System,LIMS),研究プロセスと議論の記録,管理を電子的に行う電子ラボノート(Electronic Laboratory Notebook, ELN)などの普及も進んでいる.これらのソリューションは,デファクトスタンダードとしての普及から,より多くの利用者の獲得から機関単位での契約,といった利用拡大戦略を見込み,企業間で積極的な競争が行われている分野もある.

全国規模でのオープンサイエンスとRDMの情報システム・サービス基盤として,2021年初頭には国立情報学研究所がリサーチデータクラウド(NII-RDC)の公開を予定している[31].これは,Webインタフェースを通じた研究データの保存と共有,タイムスタンプによる証跡管理を支援する「管理基盤(Gakunin RDM)」,現行のJAIRO Cloudをデータリポジトリとして機能を拡大するとともに,データ管理基盤との連携によりプロジェクトマネジメントの一環として研究データの公開を支援する「公開基盤(WEKO3)」,研究データを含む幅広い学術情報を収集し,大規模ナレッジグラフとして分析することで,多様な情報探索空間を提供する「検索基盤(CiNii Research)」からなる.国立情報学研究所が運営する高速ネットワークと認証フェデレーション技術も活用し,国内すべての研究機関・研究プロジェクトにおいて,これらのRDM基盤を活用することで,オープンサイエンス時代に即した,信頼性の高い研究データの取り扱いと,研究データの検索,共有,公開を通じた,効率的かつ新しい研究プロセスの実現を目指している.

分野,機関が横断,連携し,研究データを共有・利用できるようにするには,FAIR原則にも掲げられるように,データオブジェクトの一意性を保証し,またURLなどによるアクセシビリティの確保が必要である.ディジタルデータのIDとしては,論文と同様にDigital Object Identifier (DOI)が標準として普及している.DOIを付与されたデータは,所在の永続性が重要視されることから,データリポジトリは永続的な組織体制の下,運用されることを必要としている.従って 研究者がデータにDOIを付与するには,DOI付与機能を有するリポジトリを研究者が選択し,データを登録することとなる.一方,大学や学術コミュニティが運営するリポジトリがDOI付与資格を得るためには,Registry Agency(RA)からの承認が必要である.日本国内では,ジャパンリンクセンタ(Japan Link Center, JaLC, https://japanlinkcenter.org)がRA組織として登録されており,日本語でのサポートを受けることができる[32].

DOI以外にも,対象(エンティティ)にPIDを付与し,ディジタル空間で対象を識別するとともにその対象間の関係もディジタルで扱うためのエコシステムが構築されつつある.代表的な例として,人物(ORCID, https://orcid.org/ [33]),組織(Research Organization Registry, https://ror.org/ [34]),DOI間引用関係(Open Citation Identifies, https://opencitations.net/ [35])などが挙げられる.これ以外のさまざまなエンティティについてもPIDの様式,レジストリの運用は世界レベルで検討の途上であり[36],日本国内においても情報の共有とキャッチアップが望まれる.

オープンサイエンスやRDMに関するポリシーや制度設計に関する知見の収集,分野・学術機関への展開については,業種・興味の対象ごとにグループが形成され検討が行われている.研究データ利活用協議会(Research Data Utilization Forum, https://japanlinkcenter.org/rduf/)は,JaLCが推進するリポジトリ間の連携や運営に関する議論を通じオープンサイエンスを発展に寄与することを目的とし,2016年に設立された.これまで,研究データリポジトリの運用[37],データの引用[38],ライセンス適用[39]などに関するガイドラインを公開している.

機関リポジトリ運営者を中心とし2016年に発足したオープンアクセスリポジトリ推進協会(JPCOAR,https://jpcoar.repo.nii.ac.jp/)では,機関リポジトリを通じた論文など文書類のオープン化を起点とし,研究データのオープン化への道筋を検討している.先に挙げた「データベース・レスキュー」のほか,データリポジトリ向けデータスキーマ(JPCOAR Schema)の設計[40],[41],オープンサイエンスと研究データ管理に関する教材作成[42],[43]などの取り組みを精力的に進めている.

情報基盤センタ関係者を中心に構成される大学ICT推進協議会(AXIES)は,研究データマネジメント部会(AXIES-RDM部会)を2017年に設立した.複数の学術分野が交差する大学では,全研究者を対象としたオープンサイエンス,RDMについて共通の合意点を見い出しにくい.このような状況を鑑み,AXIES-RDM部会では,大学単位でのRDM支援体制を進めるための「意義と動機付け」「情報サービス設計」「情報インフラ整備」,そしてこれらを取りまとめた「組織的RDM支援フレームワーク」の構築を目標に活動を展開している.これまでに,機関執行部を対象としRDMの組織的対応の必要性を伝える「学術機関における研究データ管理に関する提言」[44],[45],研究者へのRDMの理解醸成と実態調査を目的とした「大学における研究データに関するアンケート(雛形)」を公開している[46],[47].AXIESはまた,2020年にORCID日本コンソーシアムのリード機関として,コンソーシアム加盟機関の取りまとめと,情報共有の場を提供している.

3.オープンサイエンス時代の新しい研究スタイルの確立に向けて

本稿では,オープンサイエンスと研究データ管理に関する最近の動向を,実施主体の視点から整理した.研究データを利用しやすい形で公開することが学術を含む社会全体の利益になることについては,アカデミアの内外を問わず合意しているが,どのデータをどのような形で公開するかといった具体的な方法についてはさまざまな議論があり,合意点を探りつつ実施している状況である.このような行為はこれまでの学術活動でも行われてきたが,現代のオープンサイエンスは,研究データのディジタル化による,情報の保存,複製,整理,分析,公開のコストが大幅に下がったこと,また誰もが情報の発信・受信者になり得ることで,新しいパラダイムをもたらすものとして期待されるとともに,どのステークホルダもこれを受容するため模索を続けている.

研究者は,これまでの研究室や学術分野での慣習に従い研究データの取り扱いを定めており,常に局所最適化を行っている.「優れた研究成果を効率的にアウトプットする」ことが研究者の第一のモチベーションであることを考慮すると,共通基盤としてのオープンサイエンスやRDMの取り組み(ポリシー,サービス,システムなど,その様態は多様である)は,より良い研究スタイルへの改善提案として受け入れられることとなる.翻っては,新しい研究分野,新たなアカデミアへの参加者,新たな研究組織を対象として,共通基盤を最大限活用した研究データ管理,さらには,教育,評価なども含めた研究マネジメント全体の将来像を提示し,先鞭をつける取り組みが求められる.

日本国内においても,2016年前後を起点とし学術分野,業務分野ごとにコミュニティが形成され,オープンサイエンスに向けた,共通の組織,ルール,システムの検討が進められている.欧米のような巨大なネットワークとは言いがたいが,GO FAIRが掲げる柱に沿った取り組みは,いずれかの場で検討が進みつつある.ただし,多様な研究データとステークホルダが関係するオープンサイエンスとRDMの課題範囲は広大であるため,議論に参加する人員のさらなる拡大が必要である.2018年からはJapan Open Science Summit[48]が開催され,コミュニティ間の連携強化,オープンサイエンスへの関心を高める取り組みが進められており,今後の活動の広がりが期待される.

筆者個人の思い入れも多分に含むが,特に日本国内において先人の努力により蓄積された多量かつ良質な研究データを含む学術コンテンツの維持が困難になりつつある.しかしながら,学術コンテンツが持続的に維持されるには,その存在が広く認知され,さらに何らかの価値が見い出される必要がある.従来から存在する学術コンテンツであっても,世界的な共通なオープンサイエンスのフレームワークに則り,これらを流通させることは,時間,空間,手法などの独自のコンテキストを持つデータとして,「グローカル」視点での新たな価値を付加することにもつながる.また,オープンな研究データを通じた一般企業や市民研究者との交流の活性化は学術コンテンツ流通のエコシステムを強固にすることが期待される.ディジタル時代のオープンサイエンスの展開が,学術コンテンツの価値の向上,新たな学術分野の開拓,そしてアカデミアの内外を問わず学術分野の裾野の拡大につながることを期待したい.

参考文献
青木学聡
青木学聡(正会員)aoki.takaaki@nagoya-u.jp

2000年京都大学工学研究科博士課程修了,博士(工学).NEDO委託事業研究員を経て,2005年京都大学工学研究科産学官連携助手,2007年同講師,2016年京都大学情報環境機構准教授.2020年名古屋大学情報連携推進本部情報戦略室教授.

採録決定:2021年1月18日
編集担当:吉野松樹((株)日立製作所)

会員登録・お問い合わせはこちら

会員種別ごとに入会方法やサービスが異なりますので、該当する会員項目を参照してください。