トランザクションデジタルプラクティス Vol.2 No.2(Apr. 2021)

ジオスペース科学分野におけるデータ出版とデータ引用の現状およびそのプラクティス

能勢 正仁1  村山 泰啓2  西岡 未知3  石井 守3  今井 弘二2  木下 武也4  小山 幸伸5  相良 毅6

1名古屋大学宇宙地球環境研究所  2情報通信研究機構戦略的プログラムオフィス  3情報通信研究機構電磁波研究所  4海洋研究開発機構  5近畿大学工業高等専門学校  6株式会社情報試作室 

ジオスペース科学とは,地球周辺の宇宙空間(対流圏最上部の高度約12 kmから月軌道の高度約38万kmまでの広大な空間)で起こっている電磁気的現象を地上観測や科学人工衛星観測,計算機シミュレーションといった手法で解明しようとする研究分野である.ジオスペース科学分野では,2010年代半ばから,研究データにデジタルオブジェクト識別子(DOI)を付与することにより,「データ出版」が進められてきた.現在,国内では,ジオスペース科学分野の18個のデータベースにDOIが付与されている.一方,研究論文の中で,研究に用いたデータの詳細な情報やそれが保存されているリポジトリの明示を行う「データ引用」については,ようやく端緒についたところであるが,学術出版社のデータポリシーの変化に伴い,今後,データ引用の普及が加速していくと考えられる.こうしたデータ出版・データ引用は,ジオスペース科学分野の多くの研究者にとって新しい慣習であり,戸惑いに直面しているのが実情である.しかしその実施は,データ利用者に対しては,研究データを容易に探し出せるメリットを,データ提供者に対しては,データ出版数やデータ被引用数といった貢献度を測ることができるメリットをもたらしうる.この論文では,ジオスペース科学分野におけるデータ出版とデータ引用の現状を概説し,その中で我々が行ってきたプラクティスについて詳細に述べる.

ジオスペース科学,デジタルオブジェクト識別子(DOI),データ出版,データ引用

Data Publication and Data Citation in the Field of Geospace Science: Present Status and Our Practice

Masahito Nosé1  Yasuhiro Murayama2  Michi Nishioka3  Mamoru Ishii3  Koji Imai2  Takenari Kinoshita4  Yukinobu Koyama5  Takeshi Sagara6

1Institute for Space-Earth Environmental Research, Nagoya University, Nagoya, Aichi 464–8601, Japan  2Strategic Program Produce Office, National Institute for Information Communications Technology, Koganei, Tokyo 184–8795, Japan  3World Data Center for Ionosphere and Space Weather, National Institute for Information Communications Technology, Koganei, Tokyo 184–8795, Japan  4Japan Agency for Marine-Earth Science and Technology, Yokohama, Kanagawa 236–0001, Japan  5Kindai University Technical College, Nabari, Mie 518–0459, Japan  6InfoProto Co., Ltd., Tama, Tokyo 206–0033, Japan 

Geospace science is a research field to study various electromagnetic phenomena that occur in the near-Earth space (a vast space ranging from the uppermost troposphere at an altitude of ~12 km to the moon orbit at an altitude of ~380,000 km) with various methods such as ground observations, spacecraft observations, and numerical simulations. In geospace science, “data publication”, that is, minting a digital object identifier (DOI) to research data, has been conducted since the middle of 2010's. We have now 18 DOIs for geospace science database in Japan. Meanwhile, “data citation”, that is, stating detailed information about data used in research or their repository, is still in its early stage. A recent rapid change in the data policy of publishers will promote data citation in future. Both data publication and data citation are new research manners for the most researches in geospace science and bewilder them. However, the implementation of data publication and data citation will provide much benefit to both researchers and data providers in such a way that researchers can more easily locate and obtain necessary information of data used in papers, and data providers can gain professional recognition and rewards for their labors to publish and manage database. In this paper, we outline the present status of the data publication and data citation in the field of geospace science, and describe in more detail our practice for them.

geospace science, digital object identifier (DOI), data publication, data citation

1. 緒言

1.1 ジオスペース科学

ジオスペース(Geospace)とは,地球周辺の宇宙空間を示す言葉で,厳密な定義はないが,およそ対流圏界面(対流圏の最上部で高度約12 km)から月の軌道(高度約38万km)あたりまでを含む領域を指す.この領域には,宇宙ステーション(高度約400 km),GPS衛星(高度約2万km),通信衛星(CS衛星)・放送衛星(BS衛星)・気象衛星「ひまわり」(すべて高度約3万6000 km)などが飛翔しており,ジオスペースの活用は,現代社会生活の維持に欠かせないものとなっている.ジオスペースは真空ではなく,正の電荷を帯びた粒子と負の電荷を帯びた粒子からなるプラズマで満たされている.また,地球の持つ固有磁場がジオスペースにまで張り出しているため,プラズマと地球磁場の相互作用の結果,様々なプラズマ波動や電磁場変動,電流変化などが生起するダイナミックな領域である.ジオスペースで起こっているこれらの電磁気的現象を地上観測や科学人工衛星観測,計算機シミュレーションといった手法で解明しようとする研究分野は,「ジオスペース科学」または「超高層地球科学」,「地球電磁気学」などとも呼ばれている.

ジオスペースでは,時としてプラズマが強く加熱され,高エネルギー粒子が生じたり,大電流が流れたりすることがあり,そこを飛翔する宇宙ステーションや人工衛星に障害をもたらしうる.2003年10月25日に地上との通信ができなくなった日本の地球観測プラットフォーム衛星「みどりII」のトラブルは,高エネルギー粒子による帯電現象により太陽電池の電力送電線(ハーネス)が損傷したためと考えられている[1].また,1989年3月11日にカナダ・ケベック州で起きた大停電は,ジオスペースの電磁気的変動に伴って高緯度オーロラ帯に電流が急激に流れたため,送電線に大電流が誘起され,それが変圧器に異常動作を起こさせたことが原因とされている[2].このように,ジオスペースで生じる現象が現代社会のインフラに影響を及ぼしうることから,そうした現象が起こる物理的機構を正しく理解することや,それを基に将来予測を行うことを目的とする「宇宙天気研究」および「宇宙天気予報」が注目されつつあり,ジオスペース科学の重要性が高まっている.

1.2 ジオスペース科学分野における研究データの特性

ジオスペース科学分野における研究データは,ある物理量が時間的に変わっていく様子を記録した時系列データ,またはある状況を表現する画像が時間的に続いていく時系列画像であることが多い.こうした時系列データ・時系列画像は,ある一定の時間間隔で長期間継続して記録されることが一般的で,現時点でも様々なデータが蓄積され続けている.そのため,データベースの大きさは,時間とともに自動的に増大していく.このように,ジオスペース科学分野の研究データは,室内実験や生物実験などで得られる比較的小規模でサイズの確定したデータセット,もしくは野外調査などで得られる試料データとは異なる特性を持っている.

図1に,時系列データ・時系列画像の例として,2014年1月1日に記録されたDst指数とイオノグラムデータを示した.Dst指数は,地球周辺の電磁気的環境がどの程度荒れていたかを示す指標であり,変動磁場の大きさが1時間ごとに並んでいる.この例では,13:00:00ごろから値が変わりだしていて,電磁気的環境が大きく変化したことが読み取れる.イオノグラムは,高度数100 kmあたりに存在する電離圏に対して地上から電波を照射し,その反射してきた様子を画像で示したものである.図1には,11:00から13:00まで1時間ごとに照射した結果を示している.各画像の左下に現れている曲線が電離圏で反射してきた電波であり,この形状から各時間の電離圏の様子を知ることができる.ここに例示したDst指数とイオノグラムは6年以上前のデータであるが,両者とも現在まで継続して観測が行われており,時々刻々と最新データがデータベースに追加されている.

2014年1月1日のDst指数とイオノグラム Dst index and ionogram on January 1, 2014.
図1 2014年1月1日のDst指数とイオノグラム
Fig. 1 Dst index and ionogram on January 1, 2014.

1.3 ジオスペース科学分野における研究データの取り扱い

ジオスペース科学分野では,研究対象となる現象の空間スケールが地球規模のグローバルなものであることから,ジオスペース内の複数地点で同時に観測されたデータを比較・検討することが望ましい.また,1957–1958年にかけて実施された国際地球観測年(International Geophysical Year, IGY)においては,世界中で取得された観測データを収集・管理し,それらを利用者に配布するための世界データセンター(World Data Center, WDC)が整備され,IGY終了後もWDCの活動が継続されてきた.そのため,ジオスペース科学においては,研究データを原則無償で公開することは,比較的普通に行われてきた.公開されたデータを解析して得られた研究成果を発表する際には,データ作成者やデータ提供者を共著者に含めることもあるが,論文の最後にデータ利用に関しての謝辞を記すだけのこともあり,統一された方法があるとは言えなかった.

しかしながら最近になって,論文を出版するためには,用いたデータやそれが保存されているリポジトリの明示等,研究データの取り扱いについて適切な対応を迫られるようになってきた.米国地球科学連合(American Geophysical Union, AGU)が出版する学術誌では,論文中にデータ引用やデータ可用性を記述するように求められつつある[3].2019年には,大学・研究機関・学協会・学術出版社などを会員とする地球科学情報組合(Earth Science Information Partners, ESIP)が,研究データ引用に関するガイドライン[4]を発表しており,そこでは研究論文中にデータを引用することの重要性やそのための具体的な方法が説明されている.こうした動きは,学術出版社のデータ取り扱いポリシーが急激に変化してきた[5]ことが背景にあるが,もっと根底的には,科学研究における「データ」は「知の源泉」(内閣府統合イノベーション戦略2020 [6])であり,国際学会や政府当局において,その整備・利活用が重視されるとともに,科学的発見の根拠,また更に深い知を生むため次世代へ引き継ぐべき研究資産,と再認識されるようになったことが影響している.2012年に表明されたサンフランシスコ宣言[7]や2017年にイタリア・トリノで開催されたG7科学大臣会合[8]等においては,データを論文とならぶ学術業績として認めようとする動きがあったことも重要な要因として挙げられる.

競争的外部資金申請の際に,研究データマネジメント(Research Data Management, RDM)計画に関する記載を行うことは,アメリカではNASA(National Aeronautics and Space Administration)やNSF(National Science Foundation)をはじめとする研究資金配分機関では数年ほど前から導入されていた.同様に日本でも,近年,RDM計画の提出が,科学技術振興機構(JST)などで必要となりつつある.

このように,ジオスペース科学における研究者は,研究論文発表や競争的外部資金申請を行ううえで,これまでの常識とは異なった研究データの取り扱いを求められるようになっている.

2. データ出版・データ引用

近年登場してきた新しい形式の学術誌として,「データジャーナル」がある.これは,日本学術会議情報学委員会国際サイエンスデータ分科会の報告書[9]によれば,「オリジナル論文の発表を中心とした分野別の学術研究のこれまでの成果発表の方法に加えて,データ生産者が分野を超えて連携して,オリジナル論文に埋め込んだデータや論文投稿時に棄却した高品質のデータを学術の成果として集積するための新たな場」であり,具体例としてはSpringer Nature社の“Scientific Data”やCopernicus社の“Earth System Science Data”などが挙げられる.ジオスペース科学に特化したものとしては,2017年から国立極地研究所が発行している“Polar Data Journal”[10]がある.「データ出版」とは,狭義には,このようなデータジャーナルに,データの内容や特性といったデータそのものの解説を論文形式でまとめて発表することと捉えられる[11].

従来,研究データは,研究者や研究機関が管理するサーバから公開されることが多かったが,サーバの変更などでhttpアドレスが変わると,古いアドレスや情報ではデータの参照ができなくなってしまう.一方,研究データをリポジトリに登録し,一意性・持続性・一貫性を持った識別子を付与することによって,データへの到達性を保証できれば,将来にわたってデータの参照が可能になるため,広義に「データ出版」を行ったとみなすことができる.デジタルオブジェクト識別子(Digital Object Identifier, DOI)は,1990年代後半に出版社によって主に本や雑誌などの出版物の共通識別子として導入がなされてきたが,現在は研究データ出版の用途でも広く用いられるようになっている.たとえば,国内のジオスペース分野において最初に付与されたDOIはdoi:10.17591/55838dbd6c0adであり,この識別子によって,アラスカのPoker FlatにおいてMF(中波)レーダーで観測された中間圏風速データのメタデータやデータベースへ一意的にアクセスすることができる.

出版されたデータは,データの作成者や管理者,その作成年・公開年,タイトル,保管場所などが明示されており,そうした情報への到達性が保証されているので,再利用されやすくなる.さらに,研究論文において,過去の研究論文を引用するのと同様に,DOIを明示して研究データを参照・引用することが可能になる.こうした「データ引用」は新しい研究慣習となりつつある.

「データ出版」および「データ引用」は,データ利用者,データ提供者の両者に次のようなメリットをもたらす.(1)データ利用者は,論文に引用されたデータを探し出すことや,そのデータに関する情報(メタデータ)を得ること,論文の結論を検証すること,などが非常に容易になる.(2)研究者が論文出版数や論文被引用数に応じて評価されることと同じように,データ提供者は,データ出版数やデータ被引用数に応じて,データサービスやデータ管理に対する報奨や研究資金を受け取れるようになる.特に,研究データの生成・整備・公開といった活動は,一部の研究者が担いながらもその評価は過少になされてきたが,図2に示すように,データ引用が行われることによって,研究成果の新たな評価軸として認識されるようになると期待される[12].

データ引用による好循環.[12]より抜粋 Positive feedback by data citation. Adapted from [12].
図2 データ引用による好循環.[12]より抜粋
Fig. 2 Positive feedback by data citation. Adapted from [12].

以下,第3章では,ジオスペース科学分野におけるデータ出版・データ引用について,国内・海外の現状と課題を述べた後,第4章で,我々が実際に行ったデータ出版のプラクティスについて詳説する.

3. ジオスペース科学分野におけるデータ出版・データ引用の現状と課題

3.1 データ出版の現状と課題

我々はジオスペース科学データを取り扱う国内のデータセンターの関係者として,前章で述べたデータ出版とデータ引用の重要性を認識し,2013年以来,データベースにDOIを付与する試みを続けてきた.世界で10か所存在するDOI登録機関(Registration Agency)のうちの一つであるジャパンリンクセンター(Japan Link Center, JaLC)が,2014年10月から1年の期限付きで行った「研究データDOI登録実験プロジェクト」に参加し,ジオスペース科学データに実際にDOIを付与する手続きやルールを検討した.このプロジェクトを進める中で,図3に示すように,各データセンターとJaLCの間の情報をやり取りするための共用サーバの導入や,やりとりの際のメタデータスキーマの確定,DOIから研究データへアクセスしてきたユーザがまずたどり着くランディングページのフォーマット策定,などを実施し,2015年6月19日には,先にも述べた日本における最初のデータDOI(doi:10.17591/55838dbd6c0ad)を登録することができた.これらのプラクティスの詳細は,後ほど第4章で紹介する.その後もJaLCとの密な連携を継続し,2020年8月現在,18個の国内ジオスペース科学データベースに対してDOIを付与している(表1).内訳は,中波レーダーで観測された中間圏風速データベースが一つ,国内の4か所の観測所で得られた高度100–500 kmあたりの電離層の状況を示したイオノグラムデータベースが12個,東京都小金井市上空約4 kmまでの風速データベースが一つ,ジオスペースの電磁気擾乱を地球磁場の変動から表そうとした地磁気指数データベースが三つ,高知県室戸における地磁気地電流データベースが一つ,となっている.これらは,上記データセンターが保有する大規模データベース(数百種類以上)のごく一部であり,早期にDOI付与の対象とした理由としては,広く一般的に使われているデータベースであること,データ作成者の同意が得られていること,DOI付与する単位である「粒度」が比較的決めやすいこと,などが挙げられる.表1に示したDOIの付与は,2015年から2017年にかけて行ったものであるが,1.2節で述べたように,ジオスペース科学分野のデータは継続して記録されていくことが多いので,これらのデータベースのほとんどは,現在もそれぞれの観測時間間隔で更新され続けている.

国内のジオスペース科学データセンターで構築したDOI付与システム DOI-minting system developed by data centers for geospace science in Japan.
図3 国内のジオスペース科学データセンターで構築したDOI付与システム
Fig. 3 DOI-minting system developed by data centers for geospace science in Japan.
表1 日本におけるジオスペース科学データベースへ付与したDOI
Table 1 DOI for Geospace Science Database in Japan.
日本におけるジオスペース科学データベースへ付与したDOI DOI for Geospace Science Database in Japan.

このほかにも,名古屋大学宇宙地球環境研究所により,ジオスペースを飛翔する科学人工衛星が取得したデータに対して,DOIを付与しようという動きも始まっている.

国際的には,国際地球電磁気学・超高層物理学協会(International Association of Geomagnetism and Aeronomy, IAGA)において,特に地磁気観測にかかわるデータセンターや観測所に所属する研究者がデータへのDOI付与について議論を開始し,2013年8月にはタスクフォースが設置された.2019年7月にカナダのモントリオールで開催された国際測地学・地球物理学連合(International Union Geodesy and Geophysics, IUGG)大会において,タスクフォースは,「地磁気データおよび地磁気指数に対するデータ出版とデータ引用の現状」について報告書を発表した[13].それによると,世界のデータセンターや観測所において,データ出版に関する個々の取り組みが進められており,日本で18個のジオスペース科学データベースに対してDOIを付与したのと同様,デンマークでは1個,フランスでは2個,ドイツでは6個,ロシアでは72個,米国では9個のデータベースにDOIが付与されている.研究データへのDOI付与に対する関心は急激に大きくなっており,データ出版についてのこのような国際的な動向は今後も継続・加速していくと思われる.

3.2 データ引用の現状と課題

一般的に,データ引用とは,文献の引用と同じように,論文最後のReferenceにデータのタイトルや提供者,公開年,DOIなどを表示して,それを本文中で参照することを指す.2015年ごろには,ジオスペース科学分野の学術誌で,データ引用に対応しているものは見当たらなかった.そこで我々は,AcknowledgmentにDOIを記述してデータの情報を示す疑似「データ引用」を試してみることにした.Kinoshita et al. (2015) [14]による研究論文では,MFレーダーの中間圏風速データを利用したため,図4に示すように,そのデータDOI(doi:10.17591/55838dbd6c0ad)をAcknowledgmentで明示している.こうした形でのデータ引用は,雑誌編集者や出版社から拒否されることもなく,無事に実行することができた.

Kinoshita et al. (2015)により行われたデータ引用 Data citation conducted by Kinoshita et al. (2015).
図4 Kinoshita et al. (2015)により行われたデータ引用
Fig. 4 Data citation conducted by Kinoshita et al. (2015).

その後,[5]にも述べられているように,出版社がデータポリシーとして,論文に用いたデータに関する記述やリポジトリによる公開を求めるようになりつつあった.ジオスペース科学分野の学術誌では,こうした記述や公開は,まだ必須ではないが強く推奨されるようになってきた[3].そこでNosé et al. (2017) [15]によって発表された論文では,一般的なデータ引用を試みた.図5はその結果である.Referenceでデータの作成者や公開年,タイトルとともにDOI(doi: 10.17593/13882-05900)が,引用論文リストの中の一つとして並べられており,それが本文中で引用されていることが見て取れる.

Nosé et al. (2017)により行われたデータ引用 Data citation conducted by Nosé et al. (2017).
図5 Nosé et al. (2017)により行われたデータ引用
Fig. 5 Data citation conducted by Nosé et al. (2017).

以上のようなデータ引用に関しては,ゆっくりとではあるが,国際学術雑誌に発表された論文で実際に行われ始めている.データにDOIが付与されているので,Web of Scienceのような引用文献データベースを用いれば,研究論文と同様に研究データの被引用回数や引用元の情報を得ることができる.例として,Dst指数(doi:10.17593/14515-74000)およびAE指数(doi:10.17593/15031-54800),室戸における地磁気・地電流データ(10.17593/13882-05900)が学術論文のReference内に現れている回数をWeb of Science Core Collectionで調べたところ,2020年11月5日時点でそれぞれ16回,10回,1回であった.もちろん,これらの被引用数は,論文中で使ったデータのDOIをReferenceに記述するという,データ引用を実施している論文数に基づくものであり,本文中や謝辞でのみ言及されている従来のような例は含まれていない.現時点では,被引用数の少なさは,データが利用されていないことを必ずしも示すものではなく,データセットを正当に評価するためには,データ引用が広く一般的に行われる必要がある.最近は,Google Dataset Searchにより,データベースを引用している学術記事の数を検索することも可能になっている.

上で紹介したIAGAのタスクフォースの報告書[13]でも,データ引用の現状が述べられており,ドイツ,ロシアによりDOIが付与されたデータベースが引用されてはいるが,2019年7月の時点ではどちらも10回未満である.ジオスペース科学分野においては,データ出版に比べて,データ引用はまだそれほど一般的ではないが,学術出版社の近年の動向から判断すると,データ引用という慣習はより一層普及していくであろう.

4. データ出版のプラクティス

4.1 国内ジオスペース科学データへのDOI付与の嚆矢

我々が,研究データへのDOI付与およびデータ出版・データ引用について初めて耳にしたのは,2012年10月に台湾・台北で開催された第23回国際科学技術データ委員会(Committee on Data for Science and Technology, CODATA)会議[16]であった.ドイツのデータセンターでデータへのDOI付与が進められていることや,それが論文から引用される事例に関する講演を聴講し,国内でもデータ出版とデータ引用を推進するべきと考えるようになった.そこで,2013年2月に京都府宇治市で開催された第221回生存圏シンポジウムにおいて,JaLC運営委員長を務める国立情報学研究所の武田氏と,当時ORCID Technical Working Groupメンバーであった同研究所の蔵川氏による招待講演を企画し,科学データの共有方法に関する動向や今後の課題などを議論した[17].以上の準備のもと,国内のジオスペース科学分野のデータセンター関係者で2013年8月1日に初めての会合を開催し,以降およそ半年に一度の定期会合を開催してきた.

4.2 DOI登録機関の選択

DOIを付与するにあたっては,まずDOIの登録機関を決定する必要がある.上記会合を始めた時点で,DataCiteと呼ばれる登録機関とコンタクトを取ったところ,年会費が150ユーロ,DOIの付与費が一つあたり0.20ユーロ程度かかるということであった.ほぼ時を同じくして,JaLCがDOIの付与対象を従来の文献や学術出版物から研究データへ拡大しようとしており,そのために設けられていたJaLCの「対象コンテンツの拡大検討分科会」に我々のうち数人が参加した.この分科会での議論を受けて,2014年12月からJaLCでは,研究データを登録する新しいシステム基盤の運用が開始された.JaLC経由でDOIを付与する場合には,2年間のDOI登録数が100件以下であれば,年会費は2万円(検討当時)であった.DataCiteと比較して年会費がそれほど変わらないこと,追加でDOI付与費がかからないこと,JaLCが日本の学術コンテンツの発行・提供・流通の促進を目指していること,実務担当者と日本語で対応が可能なこと,などを考慮し,DOI登録機関としてJaLCを利用することに決定した.

4.3 ジオスペース科学データDOI付与システムの構築

2014年当時は,研究データにDOIを付与する試みは国内ではほとんど初めてであったため,JaLCはまず,「研究データDOI登録実験プロジェクト」を実施することとした[18].このプロジェクトは,2014年10月から2015年9月まで実施され,様々な分野の複数データセンターの参加のもと,研究データのDOI付与に特有の課題抽出とその解決,運用方法の確立,DOIの活用方法などの検討が行われた.得られた知見は,最終的に「研究データへのDOI登録ガイドライン」として2015年10月に公表されている[19].

このプロジェクトには我々も参加し,その過程において,ジオスペース科学分野のデータにDOIを付与するための一連のルールやシステムを構築した(図3).具体的なプラクティスは以下のとおりである.

(1) JaLC会員種別

JaLCをDOI登録機関として利用するには,年会費を支払ってJaLC正会員になる必要がある.JaLCは正会員の下位団体として準会員の登録を許しており,準会員は正会員を通して,DOI登録を行うことができる.そこで,情報通信研究機構を正会員として登録し,その他のデータセンターを準会員とすることにした.

(2) DOIプリフィックス

DOIプリフィックスは,正会員,準会員ともに発行を受けることができるので,データセンターごとに次のような割り当てを行った.

  • ・情報通信研究機構:10.17591
  • ・地磁気世界データセンター:10.17593
  • ・電離層・宇宙天気に関する世界データセンター:10.17594
(3) DOIサフィックス

DOIサフィックスは,プリフィックスを与えられた機関が自由に決めることができる.一つの方法は,人間が見たときに意味が分かるような付け方で,たとえば,“wind_velocity/2020-08-12/1-sec”(2020年8月12日の1秒値の風速データ)や“magnetometer/kyoto/2020/08/12”(京都における2020年8月12日の磁力計データ)といった類のものである.こうした例は,一見して分かりやすいものの,将来的にデータの種類が増えたり,データベースの構造が変わったりすると,その名づけルールが破綻する可能性が高い.また,サフィックスは一連の文字列であるので,その中の“/”は,あくまでも文字の一種で,データの階層区切りを意味するものではない.もう一つの全く異なる方法としては,文字と数字を組み合わせたランダムな文字列にしてしまうことである.データの中身はサフィックスだけからは分からないが,上記の欠点は解消される.DOIからたどれるランディングページでデータの詳細な情報は分かるので,サフィックスで説明をしようとする必要はないという考え方に拠る.我々は,議論の結果,後者の方法を採ることにした.表1からも分かるように,英数字を組み合わせた13文字の文字列か,10桁の数字のうち中央にハイフンを入れたもの,のどちらかとしている.当初は意味のない文字列をつけることに多少の抵抗はあったが,これまでの運用中に不便を感じたことはないと言える.

(4) メタデータスキーマ

ジオスペース科学分野では,メタデータを作成する際に,NASAが開発したSPASE(Space Physics Archive Search and Extract)メタデータスキーマ[20]が用いられることが多い.このスキーマは,衛星や地上での様々な種類の観測など,ジオスペースで必要とされるプロパティを広くカバーしている.我々がJaLCを通じてDOI付与を行おうとした2015年の状況では,スキーマのバージョンは2.2.2であり,DOIを記述するエレメントが設定されていなかった.(2020年8月現在のバージョン2.3.1では,DOIを記述するエレメントが含まれている.)そこで,SPASEスキーマのバージョン2.2.2に,DOIを記述するための独自の拡張を行い,そのスキーマをIUGONETスキーマと名付けた.IUGONETとは,我々が別途参加していたプロジェクトの名前(Inter-university Upper atmosphere Global Observation NETwork) [21]であり,このプロジェクトでもジオスペース科学データのメタデータスキーマの策定とメタデータの作成を行っていたためである.各ジオスペース科学データセンターは,このIUGONETメタデータスキーマ(すなわち,SPASEメタデータスキーマver. 2.2.2.を拡張したもの)に則って,DOI付与を行いたいデータのメタデータを作成した.

(5) メタデータのマッピング

データにDOIを登録するには,データの情報やDOI,ランディングページのURLなどの情報をJaLCに通知する必要がある.これらの必要な情報は,JaLCメタデータスキーマで策定されている[22].このスキーマは,論文や書籍など書誌情報を記述するためのスキーマに基づいているため,比較的シンプルなもので,必須項目は30個弱に過ぎない.上で述べたように,メタデータはIUGONETメタデータスキーマで作成されているので,IUGONETメタデータスキーマとJaLCメタデータスキーマ間のマッピングテーブルを決定し,メタデータの変換が行えるようにした.

(6) 共用サーバ

ジオスペース科学データセンターからJaLCへのDOI登録については,メタデータスキーマなどが共通化できているため,個々に行うのではなく共用サーバを導入した(図3).この共用サーバは情報通信研究機構の内部ネットワークに設置され,以下の機能を備えている.

  • ・ユーザ管理
  • ・安全な(未登録の)サフィックス候補文字列の生成
  • ・IUGONETメタデータのアップロード受付
  • ・XSDによるIUGONETメタデータの整合性検証とエラー検出
  • ・ランディングページの生成とプレビュー
  • ・ランディングページのWWWサーバへの発行
  • ・XSLによるJaLCメタデータへの変換
  • ・JaLC提供XSDによるJaLCメタデータの整合性検証
  • ・確認のためのJaLCメタデータのダウンロード
  • ・JaLC WebAPIを用いたオンライン登録

各データセンターが共用するために,複数ユーザによるコンテンツ管理が行えるDrupal上で動作する拡張モジュールとして実装した.発行したランディングページは,情報通信研究機構が外部へ向けてサービスしているWWWサーバー上に配置される.

スキーマの変更やランディングページのデザイン変更は将来必要になることが予想されたため,メタデータの整合性検証に必要なXSDや変換に利用するXSL,ランディングページのテンプレート(XHTML)などのファイルはDrupal拡張モジュールの設定画面で差し替えられるように設計した(図6).

共用サーバ上のXSD,XSL,XHTMLを差し替えるためのメニュー Menu for replacing XSD, XSL, and XHTML files on the shared server.
図6 共用サーバ上のXSD,XSL,XHTMLを差し替えるためのメニュー
Fig. 6 Menu for replacing XSD, XSL, and XHTML files on the shared server.
(7) ランディングページ

ヨーロッパを中心にすでに公開されていたランディングページを巡回・収集し,そのフォーマットなどを調査したところ,研究データの種類,研究機関,データセンターごとに様々なものがあることが分かった.そこで,データベースのタイトル,データ内容の記述,作成者・観測者,デジタルデータ自体へのリンクなど,最低限必要な情報を基準として,それらにジオスペース分野で特徴的な情報である観測位置や観測時間間隔,地図上での位置表示などを加えてランディングページのスタイルを確定した.また,もう一つの工夫としては,メタデータの軽微な修正事項(観測機器の位置の近距離変更,エラー値の修正など)に伴うランディングページのアップデート履歴が分かるように,ランディングページのバージョン管理と表示が可能になるようにしている.

図7は,ジオスペース科学データDOI付与システムで作成されたランディングページの一例である.最初にデータベースのタイトルとその説明があり,次の“Data Citation”には,このデータベースを論文中で使用した場合に,データ引用をするための引用サンプルが掲載されている.“General Characteristics”では,データの物理量の説明,データ処理段階,観測時間間隔,データベースがカバーする観測期間を示している.“Observation Location”には,このデータが取得された観測所の緯度経度・地図上での位置,“Citation & Contact Information”には,データ利用に関する謝辞文章の例と問い合わせ先が表示されている.“Links”には,デジタルデータへのアクセスリンクや一般的なデータ引用に関する論文へのリンクが埋め込まれている.“Provider Version”は,データ提供者から与えられるデータのバージョンである.最後の“Update History”には,このランディングページの更新履歴が表示されていることが分かる.以上の項目は,すべてのランディングページに共通となっている.

ジオスペース科学データDOI付与システムで作成されるランディングページの一例 An example of landing page created by the DOI-minting system for geospace science data.
図7 ジオスペース科学データDOI付与システムで作成されるランディングページの一例
Fig. 7 An example of landing page created by the DOI-minting system for geospace science data.
(8) データの粒度

DOIを登録する際に,どの程度のまとまりのデータを一つのDOIとして申請するかは,非常に難しい問題である.これは,データの粒度(Granularity)の問題とも呼ばれる.粒度としては,あるデータベース全体,データ種類ごと,観測所ごと,観測年ごと,観測月ごと,観測日ごと,観測時間間隔ごと,データファイルごと,などと様々な可能性が考えられ,その選択は研究分野やDOI付与者の考え方に依存することが多く,一意的な最適解は期待できない.JaLC発行の「研究データへのDOI登録ガイドライン(日本語版)」[19]においても,「最終的には,粒度を決めるのはデータ提供者の判断である.その際,DOIは長期にわたって利用されることを考慮するべきである.」とされており,その判断の観点や具体例が述べられている.データの粒度を細かくすると,DOIの数が多くなり,その管理が大変であるし,データ利用者が研究論文に引用する際に多くのDOIを記述しないといけなくなる一方,どのようなデータがよく使われるのかについて精度良く追跡でき,研究の再現性を検証する際に役に立つ.粒度を粗くすると,上記とは逆の傾向が表れてくる.我々は,基本的に,データの種類に対して一つのDOIを付与する程度の粗い粒度を用いることにした.具体的には,地磁気指数(AE指数,Dst指数など)の種類に応じて一つのDOIとし,年ごとや月ごとに付与するような細かい粒度は採用しなかった.電離層からの反射電波特性を図示したイオノグラムについても,ある観測所での観測データプロット全体に対して一つのDOIとしている.この程度の粗い粒度を用いた理由は,DOIの管理・維持が容易なこと,データ引用の際にデータ利用者にかかる負担を大きくしたくないこと,将来的に被データ引用数を算出する際に手間が少なくなること,が挙げられる.

4.4 DOI付与の実施

JaLCの「研究データDOI登録実験プロジェクト」実施期間中に,先に述べたDOI付与システムを完成させ,プロジェクト終盤の2015年6月19日に日本で初めて,研究データにDOIを付与することに成功した.(図7に示したのは,このDOIに対応するランディングページである.)

プロジェクト終了後は,JaLCのサービスを継続して利用し,表1に示したように,これまでに18個の国内ジオスペース科学データベースに対してDOIを付与した.システムの継続運用については,Drupalのメジャーアップデート(バージョン7から8),情報通信研究所の所内セキュリティポリシー変化に伴う外部からのリモート接続トラブル,サーバハードウェア移設に伴うデータ移行作業など,その解決に比較的マンパワーが必要となる事案が発生した.一方,2019年1月にはランディングページ上の地図表示に使っているOpenLayersの仕様変更が,2019年5月にはJaLCのメタデータスキーマ(研究データ)の更新があったが,これらの問題には,図6で示したメニューからランディングページテンプレート(XHTML)とXSLファイルの差し替えによりシステムの改修を行わずに効率よく対応できた.これらの知見を生かし,システムの維持にかかるコストを最小化することが,今後の安定継続のための課題である.

最も新しいDOI付与は,約3年前(2017年8月20日)のものであるが,システム自体は動作しており,上記18個のデータベースは全体のごく一部であるので,残りのデータベースについても,引き続きデータ出版を行う予定である.また,このシステムをデータセンターだけでなく,大学や研究所の個人研究者・データ提供者が使えるように,利用範囲を拡大し,ジオスペース分野のデータ出版の促進を図りたい.

5. 結言

ジオスペース科学分野では,2010年代半ばから,研究データにDOIを付与する「データ出版」が進められてきた.国内では,我々データセンター関係者が主導する形で,DOI付与を行う一連のプラクティスを検討・議論・実行し,付与システムとして整備した.これにより,現在までに18個のジオスペース科学データベースに対してDOIが付与されている.この取り組みの継続により,国内ジオスペース科学分野のデータ出版を牽引していくことが期待されている.国際的には,主に地磁気の観測を行っている研究者や観測所,データ提供者が中心となって,DOI付与が進められている.特に,ドイツやロシア,米国はデータ出版に積極的である.

「データ引用」はまだ端緒についたところであるが,学術出版社のデータポリシーの変化に伴い,研究者は学術論文で用いたデータを明記することが求められつつあり,今後,データ引用の実施が加速していくことが容易に予想される.我々のデータ引用プラクティスはその先例として参考になると考えている.

こうした背景を踏まえ,2020年11月に開催された地球電磁気・地球惑星圏学会(SGEPSS)講演会では,研究者を取り巻く現状把握とその対処方法,将来の研究データ管理や公開・共有について議論するための特別セッション「論文が書ける研究データ管理・出版・引用:データの新しい役割を見据えて」が設けられ,合計16件の講演が行われた[23].データ出版・データ引用は,研究者にとって新しい慣習であり,戸惑いに直面しているのが実情であるが,その普遍化はデータ利用者・データ提供者の両者にとってメリットをもたらすことを強調したい.

謝辞 DOI付与のプロセスにあたって,ご支援・ご協力をいただいた家森俊彦氏,渡邉堯氏,門倉昭氏,篠原育氏に,謹んで感謝の意を表します.本研究は,ベルモントフォーラム活動およびそのPARSECプロジェクトの一環として,科学技術振興機構(JST)の支援を受けています.

参考文献

能勢 正仁(非会員)nose.masahito@isee.nagoya-u.ac.jp

1998年京都大学大学院理学研究科博士課程修了,博士(理学).1998年 米国ジョンズホプキンス大学応用物理研究所,2001年 京都大学大学院理学研究科助手,2007年 同助教,2018年 名古屋大学宇宙地球環境研究所准教授,現在に至る.この間,研究データ利活用協議会企画委員会,Japan Open Science Summit実行委員会,日本地球惑星科学連合 情報システム委員会に携わる.専門は,超高層物理学,宇宙空間物理学.


村山 泰啓(正会員)

1993年京都大学大学院工学研究科博士課程修了,博士(工学).同年,郵政省通信総合研究所入所.アラスカ大学との北極域観測に関する日米国際共同研究などを経て,2011年国際科学会議世界データシステム事業国際事務局ホストを担当,その後内閣府「国際動向を踏まえたオープンサイエンスに関する検討会」有識者委員,G7科学大臣会合オープンサイエンス部会共同議長,日本学術会議国際サイエンスデータ分科会委員長,日本地球惑星科学連合理事などを歴任.


西岡 未知(非会員)

2009年京都大学大学院理学研究科博士課程修了,博士(理学).名古屋大学太陽地球環境研究所研究員を経て,2011年に情報通信研究機構入所,2015年より主任研究員,電離圏観測を担当.専門は超高層大気物理学.


石井 守(非会員)

1993年京都大学大学院理学研究科博士課程修了,博士(理学).独・マックスプランク超高層研究所客員研究員を経て1994年郵政省通信総合研究所入所.1998年米国アラスカ州立大学フェアバンクス校客員研究員(科学技術庁特別研究員),2002年内閣府総合科学技術会議事務局参事官補佐を経て2011年より情報通信研究機構宇宙環境研究室長(現職).国際宇宙環境サービス(ISES)副議長,世界気象機構(WMO)IPT-SWeISSサイエンスタスクチームリーダ,国際民間航空機関(ICAO)MISDエキスパート,国連宇宙平和利用委員会(UN/COPUOS)宇宙天気エキスパート.情報通信審議会電波伝搬委員会主査.


今井 弘二(非会員)

2006年 総合研究大学院大学物理科学研究科博士課程修了.近年はデータ利活用を推進するための実証研究を進めている.博士(理学).情報通信研究機構研究員・イノベーションプロデューサー兼務,大阪工業大学 情報科学部 客員准教授,枚方市 スマートシティ推進アドバイザー.


木下 武也(非会員)

2012年東京大学大学院理学系研究科博士課程修了,博士(理学).同年,情報通信研究機構研究員.2016年 海洋研究開発機構研究員,2020年 在外研究員としてウィスコンシン大学マディソン校に渡米,現在に至る.この間,中間圏風速データのDOI付与,大気波動研究に従事.専門は,大気物理学,地球流体力学.


小山 幸伸(非会員)

2006年奈良先端科学技術大学院大学物質創成科学研究科博士後期課程修了.エネルギー経済,電波天文,超高層大気物理に関連した情報システムの構築などに携わり,2019年より近畿大学工業高等専門学校にて勤務.博士(理学).


相良 毅(正会員)

情報処理学会,地理情報システム学会会員.博士(工学).2001年 東京大学空間情報科学研究センター助手,2003年 東京大学生産技術研究所助手,2007年 同助教,2009年 株式会社ピコラボ,2012年 株式会社情報試作室,現在に至る.東京大学空間情報科学研究センター客員研究員.

受付日2020年8月25日
再受付日 2020年11月9日
採録日 2020年12月21日

会員登録・お問い合わせはこちら

会員種別ごとに入会方法やサービスが異なりますので、該当する会員項目を参照してください。