分子動力学データ共有の領域を広げる
分子動力学シミュレーションデータの共有を改善する方法を考える。
― 1 分で読む
最近、生物学のデータ量がめっちゃ増えたのは、新しいテクノロジーのおかげで、科学者たちが多くのテストをすごく早く実行できるようになったから。これって「-omics」って呼ばれることもあるよ。この他にも、コンピュータの技術が進化して、データの管理や分析が簡単になった。
データの急増の主な理由の一つは、オープンアクセス運動だね。これは、研究成果を誰でも無料でアクセスできるようにすることを目指してるんだ。この運動の影響で、科学者たちが共有するデータの量がすごく増えた。科学者たちは、自分の研究を他の人に使ってもらいたいし、そこから科学が進歩するんだよね。
データ共有を助けるために、「FAIR」っていう原則が作られた。FAIRは、「Findable(見つけやすい)」、「Accessible(アクセスしやすい)」、「Interoperable(相互運用可能)」、「Reusable(再利用可能)」を指してる。これらの原則は、研究データを使いやすくして、科学成果が再現できるようにすることを目指してる。
もっとデータが手に入るようになって、新しいツールやテクノロジーが出てきた。その中でも、AIを使った「AlphaFold」ってツールが注目されてる。これは、タンパク質の配列に基づいて構造を予測するんだ。AlphaFoldみたいなツールが開発できたのは、タンパク質の構造や配列に関する詳細な情報が整頓された公共データベースがあったからなんだよ。
また、NMR研究における化学シフトの予測も、バイオロジカルマグネティックレゾナンスデータバンクのデータに依存してる。データがしっかり整理されて、大規模に手に入ると、AIやディープラーニングがいろんな分野の研究で面白い機会を生み出せるんだ。
分子動力学とその応用
分子動力学(MD)は、シミュレーションを使って物事がどう動くか、どう振る舞うかを理解するためのよく知られた研究分野だよ。生物学的プロセスから材料科学まで、直接観察できない動きも見ることができるんだ。
MDシミュレーションは、大量のデータを生むことができる。特に複雑な分子をモデル化する場合はね。多くのシミュレーションは特定の現象を調べるために作られるけど、通常は一つの出版物だけに使われることが多い。昔は、質がバラバラだったから全部のシミュレーションを保存するのは無駄だと思われてたけど、実際にはデータ生成にかかるコストより、ストレージのコストの方が小さいことが分かってきた。これらのシミュレーションから得られるデータは、再分析したい研究者にとって宝の山になるんだ。
科学コミュニティがオープンサイエンスに向かってる中で、MDシミュレーションのデータを誰でも使えるようにすることがすごく大事だよ。最近、MDデータの共有についての議論が始まって、特にCOVID-19のパンデミック中に勢いを増してる。特定のトピック、例えばタンパク質の構造や膜タンパク質に関連するシミュレーションを保存するためのデータベースも作られた。
MDシミュレーションのデータリポジトリを作るための努力があったにもかかわらず、あらゆる種類のMDシミュレーションファイルのための中央の場所はまだないんだ。これは、膨大なデータと使われるフォーマットの違いが原因だったりする。今は、研究者たちがさまざまな一般のリポジトリでシミュレーションファイルを共有してるけど、そのせいで特定の情報、例えば特定のタンパク質に関するデータを見つけるのが難しいんだ。
このデータの散らばり方は、MDのダークマターと見なされてて、もっと注目が必要だと思う。もっとMDファイルが公開されれば、それにアクセスしやすくなり、使いやすくなるだろうし、FAIR原則に従うことでMDシミュレーションの再現性も向上できるはずだよ。
データ収集の方法論
私たちの研究では、一般リポジトリで見つかった散らばったMDシミュレーションファイルをインデックスする方法を導入したんだ。Gromacsっていう、MDシミュレーションによく使われる人気のソフトウェアが生成したファイルに焦点を当てた。公開されているMDデータの大規模な分析を行って、その意義を明らかにしたよ。
シミュレーションされた分子のさまざまなカテゴリを発見して、これらのシステムで使われた条件を詳細に記述した。私たちの発見に基づいて、この広範なMDデータコレクションを探索しやすくするためのプロトタイプの検索エンジンを提案した。それに、MDデータのFAIR度を向上させるための簡単なガイドラインも提供したよ。
オープンサイエンスが成長する中で、もっと多くの研究者がZenodoやFigshare、オープンサイエンスフレームワークのような一般的なリポジトリでデータを共有している。私たちの分析では、MD関連のファイルがどのくらい保存されているか、3つの主要なリポジトリを調べたよ。
MDシミュレーションファイルをインデックスするために、キーワードをファイルタイプと組み合わせたテキストベースの検索方法を作ったんだ。残念ながら、このアプローチはメタデータの不一致のせいでしばしば誤った結果を引き起こしてた。タイトルや説明などのメタデータは、ユーザーが関連する詳細を追加するインセンティブなしに提供しているから、他の人がシミュレーションを理解するのが難しいんだ。
この課題を克服するために、「Explore and Expand(Ex2)」っていう特定の検索戦略を開発した。Exploreフェーズでは、タイプとキーワードに基づいてファイルを検索したよ。Expandフェーズでは、識別されたデータセット内のすべてのファイルを、ファイルタイプを限定せずにインデックスした。
私たちのアプローチを使って、約250,000ファイルと2,000データセット、合計で14 TBのデータをインデックスしたんだ。大きな課題は、圧縮アーカイブに保存されたファイルの数だった。これがデータの分析を難しくすることが多いんだ。
最初に見つけたMDデータセットは2012年8月に保存されてたけど、MDデータストレージの著しい増加が始まったのは2016年だよ。ここ数年でデポジットされたファイルの数が急増していて、これは将来的にも続くと思ってる。
MDデータの分析
私たちの分析では、インデックスされたファイルを、それに対応するファイルタイプに基づいてさまざまなMDソフトウェアパッケージに割り当てた。いくつかのプログラムの中で、Gromacsが最も多くて、87,000以上のファイルがあった。他にはNAMDやAMBERもあったよ。
特に、特定のMDパッケージに直接リンクされていない多くのファイルも見つけた。これらの不特定のファイルの分析から、構造座標や画像などのさまざまなデータタイプがあることが分かったよ。Gromacsデータに焦点を当てると、最も一般的なファイルタイプは.xtcで、軌道情報を保存するんだ。
これらの軌道ファイルは大量にあるけど、直接読み取れないし、分析するには追加のツールが必要なんだ。これが適切な座標ファイルなしに使われるのを制限することがある。その他のファイルタイプ、例えば.trrも貴重な情報を提供するけど、サイズ制限がある。
私たちの調査で、Gromacsの軌道ファイルが特化したデータベースよりも一般リポジトリに多く保存されていることが分かった。でも、こうした軌道の多くは、その関連性を確認するためのさらなる評価が必要なんだ。
次に、MD研究者が自分のファイルをデポジットしたシステムについて分析したよ。私たちは.groファイルを解析して、シミュレーションされた粒子の数や分子の種類についての洞察を得た。私たちの発見からは、タンパク質、脂質、核酸など、さまざまなシステムがあることが分かった。
それに、分子構造を説明するトポロジーファイルもたくさん特定した。これらのファイルは、長いプロセスから得られる情報を含んでいて、似たような研究をする時に研究者たちの時間を節約できるんだ。
さらに、研究者たちがMDシミュレーションで使ったパラメータ設定も見てみた。入力パラメータを分析した結果、シミュレーションがどのくらいの時間設定されているか、どのような方法が使われているかの傾向が分かったよ。ほとんどのシミュレーションは50 ns以下で設定されてるけど、中にはマイクロ秒を超えるものもあった。
MDデータ実践の共有と改善
私たちの発見は、MDシミュレーションからのデータ共有がますます一般的になっていることを示しているよ。さまざまなリポジトリからファイルをインデックスすることで、利用可能なデータに光を当てて、より良い共有を促進するための実践を奨励したい。
MDデータの共有を強化するために、研究者が従うべきいくつかのガイドラインを提案するよ。まず、zipやtarのような圧縮ファイル形式は避けた方がいい。これによってデータのインデックスが適切に行われにくくなるから。可能な限り、元のデータファイルは直接デポジットすべきだね。
次に、データセットを説明する際には、広範なメタデータを提供することが重要だよ。研究の目的や方法、使用したソフトウェア、シミュレーションの設定、分子の構成に関する情報は、他の人がデータを正しく解釈するために必要不可欠だ。
データセットを関連する研究記事や他の関連リソースにリンクさせることも、データの発見性を改善するよ。再現可能なシミュレーションのために、関連するファイル同士を明確にリンクさせて、十分なファイルを提供することが大事だね。
さらに、研究者は出版後に自分のデータのデポジットを見直して、必要に応じて情報を更新するべきだ。正確なメタデータを維持することは、データが見つけやすく、使える状態を保つために不可欠なんだ。
私たちの研究は、MDデータのFAIR度を向上させることの重要性を浮き彫りにしてる。これによって、データがよりアクセスしやすくなるだけでなく、将来の研究者がシミュレーションを再分析するのに役立つだろう。
結論と今後の方向性
要するに、MDシミュレーションから生成されたデータの共有がますます一般的になってきたことを示したよ。さまざまなリポジトリ全体でかなりの数のファイルをインデックスすることで、MDデータストレージの増加トレンドを明らかにした。
このデータは、ハイパフォーマンスコンピューティングリソースにアクセスできない研究者から、既存のシミュレーションを利用してさらなる分析をしたい人まで、多くの機会を提供するんだ。よく注釈の付いたデータセットを構築することも、AIモデルの開発には重要だよ。
さらに、利用可能なデータに関連するメタデータを改善することで、使いやすさが向上し、MDシミュレーションの再現性を促進できるだろう。MDシミュレーションの設定と共有に良い実践を推進する強い可能性を感じてる。
これから進めていく中で、MDデータを関連する研究成果、例えば関連論文と結びつけて、データの周りのコンテキストを豊かにしていきたいと思ってる。標準化されたメタデータと統制された語彙を目指すことで、データ共有のより良い実践を促進し、分子動力学の分野を前進させることができるはずだよ。
タイトル: MDverse: Shedding Light on the Dark Matter of Molecular Dynamics Simulations
概要: The rise of open science and the absence of a global dedicated data repository for molecular dynamics (MD) simulations has led to the accumulation of MD [fi]les in generalist data repositories, constituting the dark matter of MD -- data that is technically accessible, but neither indexed, curated, or easily searchable. Leveraging an original search strategy, we found and indexed about 250,000 [fi]les and 2,000 datasets from Zenodo, Figshare and Open Science Framework. With a focus on [fi]les produced by the Gromacs MD software, we illustrate the potential offered by the mining of publicly available MD data. We identi[fi]ed systems with speci[fi]c molecular composition and were able to characterize essential parameters of MD simulation such as temperature and simulation length, and could identify model resolution, such as all-atom and coarse-grain. Based on this analysis, we inferred metadata to propose a search engine prototype to explore the MD data. To continue in this direction, we call on the community to pursue the effort of sharing MD data, and to report and standardize metadata to reuse this valuable matter.
著者: J. K. S. Tiemann, M. Szczuka, L. Bouarroudj, M. Oussaren, S. Garcia, R. J. Howard, L. Delemotte, E. Lindahl, M. Baaden, K. Lindorff-Larsen, M. Chavent, P. Poulain
最終更新: 2024-05-03 00:00:00
言語: English
ソースURL: https://www.biorxiv.org/content/10.1101/2023.05.02.538537
ソースPDF: https://www.biorxiv.org/content/10.1101/2023.05.02.538537.full.pdf
ライセンス: https://creativecommons.org/licenses/by/4.0/
変更点: この要約はAIの助けを借りて作成されており、不正確な場合があります。正確な情報については、ここにリンクされている元のソース文書を参照してください。
オープンアクセスの相互運用性を利用させていただいた biorxiv に感謝します。
参照リンク
- https://covid.bioexcel.eu
- https://zenodo.org
- https://figshare.com
- https://osf.io
- https://datadryad.org/
- https://www.deshawresearch.com/downloads/download_trajectory_sarscov2.cgi/
- https://nmrlipids.blogspot.com
- https://manual.gromacs.org/documentation/current/user-guide/mdp-options.html
- https://mdverse.streamlit.app/
- https://github.com/CSSEGISandData/COVID-19
- https://github.com/MDverse/mdws/blob/main/params/query.yml
- https://github.com/MDverse/mdws/blob/main/params/residue_names.yml
- https://manual.gromacs.org/current/onlinehelp/gmx-check.html
- https://zenodo.org/record/3756664
- https://doi.org/10.1039/D0CP03473H
- https://zenodo.org/record/3989044
- https://doi.org/10.1021/acs.jctc.0c01338
- https://figshare.com/articles/dataset/Capturing_Protein_Ligand_Recognition_Pathways_in_Coarse-Grained_Simulation/12517490/1
- https://doi.org/10.1021/acs.jpclett.0c01683
- https://figshare.com/articles/dataset/Alchemical_Hydration_Free-Energy_Calculations_Using_Molecular_Dynamics_with_Explicit_Polarization_and_Induced_Polarity_Decoupling_An_On_the_Fly_Polarization_Approach/11702442
- https://doi.org/10.1021/acs.jctc.9b01139
- https://zenodo.org/record/4371296
- https://doi.org/10.1021/acs.jcim.0c01312
- https://zenodo.org/record/3634884
- https://doi.org/10.1073/pnas.1918387117
- https://zenodo.org/record/6797842
- https://doi.org/10.7554/eLife.81432
- https://zenodo.org/record/1308045
- https://doi.org/10.1371/journal.pcbi.1006642
- https://zenodo.org/record/5594466
- https://doi.org/10.1021/jacs.1c11248
- https://osf.io/4aghb/
- https://doi.org/10.1073/pnas.2116543119
- https://zenodo.org/record/7120845
- https://doi.org/10.1038/s41467-022-34077-z
- https://acs.figshare.com/articles/dataset/Fluorescence_Probing_of_Thiol_Functionalized_Gold_Nanoparticles_Is_Alkylthiol_Coating_of_a_Nanoparticle_as_Hydrophobic_as_Expected_/2481241Publication
- https://doi.org/10.1021/jp3060813
- https://acs.figshare.com/articles/dataset/Modeling_Gd_sup_3_sup_Complexes_for_Molecular_Dynamics_Simulations_Toward_a_Rational_Optimization_of_MRI_Contrast_Agents/20334621
- https://doi.org/10.1021/acs.inorgchem.2c01597
- https://acs.figshare.com/articles/dataset/Rationalizing_the_Activity_of_an_Artificial_Diels-Alderase_Establishing_Efficient_and_Accurate_Protocols_for_Calculating_Supramolecular_Catalysis/11569452
- https://doi.org/10.1021/jacs.9b10302
- https://acs.figshare.com/articles/dataset/Nucleation_Mechanisms_of_Self-Assembled_Physisorbed_Monolayers_on_Graphite/8846045
- https://doi.org/10.1021/acs.jpcc.9b01234
- https://figshare.com/articles/dataset/PTEG-1_PP_and_N-DMBI_atomistic_force_fields/5458144
- https://doi.org/10.1039/C7TA06609K
- https://figshare.com/articles/dataset/Neat_and_P3HT-Based_Blend_Morphologies_for_PCBM_and_PTEG-1/12338633
- https://doi.org/10.1002/adfm.202004799
- https://figshare.com/articles/dataset/A_Comparison_of_Methods_for_Computing_Relative_Anhydrous_Hydrate_Stability_with_Molecular_Simulation/21644393
- https://doi.org/10.1021/acs.cgd.2c00832