講演情報

[T2-P-25]FAIR原則に準ずる地球化学データの統合基盤構築およびデータ駆動型解析への展開

*山口 純平1、江島 圭祐2 (1. 山口大学理学部、2. 山口大学創成科学)
PDFダウンロードPDFダウンロード

キーワード:

FAIR原則、アーカイブ化、データ駆動型解析

 【国際動向】近年,分析機器・技術の発展によって膨大な地球化学データが指数関数的に蓄積されているが,研究者によるデータの発見,取得,引用および再利用は容易ではない.このことは「データ駆動型科学」や「研究DX」推進の障壁となり,研究データの管理・公開・再利用のあり方が国際的な課題となっている.この課題解決に向け,データの統合指針「FAIR原則」(Findable, Accessible, Interoperable, Reusable: Wilkinson et al., 2016, Scientific Data 3, 160018)が提唱され,科学分野全般のデータ整理やアーカイブ化が推進されている.特に地質学分野では,GEOROCK(http://georoc.eu)やPetDBのEarthChem(www.earthchem.org/petdb)などが火成岩類の網羅的なデータセットを提供・公開している.
【国内動向】日本学術会議は,第四の科学としてのデータ駆動型科学の発展と研究データ共有・公開を推進するオープンサイエンスを強く支持しているが,国内(特に地質学分野)における整備は依然として不十分であり,研究基盤構築では欧米主要国に後れを取っている(日本学術会議,2022,研究DXの推進–特にオープンサイエンス,データ利用推進の視点から–に関する審議について (回答)).同分野で唯一の国産地球化学データプラットフォームと位置付けられてきたDODAI(http://dsap.jamstec.go.jp/DODAI/)も,2025 年 7 月 8 日現在アクセス不能である.したがって,現状,国産の利用可能な地球化学データベースは存在しない.このような現状は,全国的に地球化学データを共有できるプラットフォームが存在しないことを意味する.この欠落は日本の大学でも同様だと考える.山口大学も同様で過去数十年にわたり卒業論文や共同研究で取得された全岩化学組成・モード組成データなど膨大な未公開データが学内図書室に紙媒体のまま所蔵されており,貴重な知見創出の機会が失われている現状にある.そこで,本研究の目的は①山口大学に所蔵される地球科学組成データを集約し,FAIR 原則に準拠した統合データ基盤を構築すること,②その基盤を用いたデータ駆動型解析によって新たな知見を創出し,当該基盤の有用性を実証することを目的とする.上記の目的が達成できれば,①各機関でのデータ集約プラットフォーム整備のモデルケースとなるほか,②データ駆動型解析の有用性を示すことで,国内各機関に眠る公表データを全国的に集約・共有するプラットフォーム整備の端緒となることが期待される.
【データ基盤の構築】本基盤は地球化学データの収集,データの統合およびWebアーカイブ化の三段階で整備を進めている.山口大学学科図書室には,北部九州から西中国に分布する白亜紀火成岩類を対象とした卒業論文が計 140 編所蔵されており,そこから抽出した全岩化学組成とモード組成データは約 7,000 件と膨大な数になる.これは限定領域でデータ基盤を先行配備し,データ駆動型解析による有用性を実証することで将来的に他の時代・岩石種へと段階的に拡張するためのロールモデルを提示する狙いがある.構築作業の一部として,全データをExcelファイル形式に統合し,データに係る情報(論文の所蔵場所,巻数,題目,試料採取地域および岩種)を新たに明記し,すべて統一フォーマットで入力した.また,全岩化学組成データの1次フィルタリングにはMATNORM(Pruseth et al., 2009, Computers & Geosciences, 35(7), 1785–1788)を適用した.MATNORMは逆組成行列の同時解法によってC.I.P.W.ノルムを算出するツールであり,微量元素を考慮した可変分子量の設定やその他特殊処理を組み込むことで,元データとの総和誤差をゼロに保つ高精度ノルム計算を実現する.これを適用することによって全岩化学組成データの異常検出を試みている.また,このようして統合したデータのWebアーカイブを作成した.このWeb閲覧ページには検索窓を配置しており,利用者が希望するデータセットを即時に抽出できるシステムを導入している.
【データ駆動型解析】収集した全ての白亜紀火成岩類の全岩化学組成(北部九州~西中国地方に限定)を概観するため初期統計解析を実施した.その結果,SiO₂ヒストグラムには48–50 wt%と74–76 wt%にピークが現れ,集合データが苦鉄質–珪長質の二項分布を示すことが判明した.その他の解析結果は本発表で詳細に議論を行う.