Élargir le paysage du partage de données en dynamique moléculaire
Un aperçu pour améliorer le partage des données de simulation de dynamique moléculaire.
― 11 min lire
Table des matières
La quantité de données en biologie a beaucoup augmenté ces dernières années. C'est grâce à de nouvelles technologies qui permettent aux scientifiques de faire plein de tests rapidement, souvent appelés -omics. Avec ça, de meilleures méthodes informatiques et des ordinateurs puissants ont rendu la gestion et l'analyse de ces données plus faciles.
Une des principales raisons de cette explosion de données, c'est le mouvement Open Access, qui vise à rendre les résultats de recherche gratuits et accessibles à tous. Ce mouvement a conduit à une augmentation significative de la quantité de données que les scientifiques partagent. Ils veulent que leur travail soit utilisé et développé par d'autres, ce qui soutient le progrès scientifique.
Pour aider au partage de données, certains principes appelés FAIR ont été établis. FAIR signifie Findable, Accessible, Interoperable, et Reusable. Ces principes visent à rendre les données de recherche plus faciles à réutiliser et à garantir que les résultats scientifiques peuvent être reproduits.
Avec plus de données disponibles, de nouveaux outils et technologies utilisant l'intelligence artificielle (IA) ont émergé. Un exemple notable est AlphaFold, un outil qui prédit la structure des protéines en se basant sur leur séquence. Le développement d'outils comme AlphaFold n'a été possible que grâce à des bases de données publiques bien organisées contenant des informations détaillées sur les structures et séquences de protéines.
Un autre exemple concerne les prédictions des décalages chimiques dans les études de RMN, qui reposent sur une collection de données de la Biological Magnetic Resonance Data Bank. Si les données sont bien organisées et disponibles à grande échelle, l'IA et l'apprentissage profond peuvent créer des opportunités passionnantes pour la recherche dans différents domaines.
Dynamique Moléculaire et ses Applications
La Dynamique Moléculaire (MD) est un domaine d'étude bien connu qui utilise des Simulations pour donner un aperçu de comment les choses bougent et se comportent, des processus biologiques à la science des matériaux. Cette technique permet aux scientifiques de voir des mouvements qu'on ne peut pas observer directement.
Les simulations MD peuvent produire une grande quantité de données, surtout quand on modélise des molécules complexes. Bien que beaucoup de simulations soient réalisées pour étudier des phénomènes spécifiques, elles ne sont souvent utilisées que pour une seule publication. Avant, on pensait que stocker toutes les simulations n'en valait pas la peine, surtout que la qualité pouvait varier. Cependant, il est devenu clair que le coût du stockage est minime par rapport aux ressources dépensées pour générer les données. Les données de ces simulations peuvent être une véritable mine d'or pour les chercheurs qui souhaitent les analyser à nouveau, en particulier lorsque les méthodes modernes d'apprentissage automatique nécessitent d'énormes quantités de données d'entraînement.
Alors que la communauté scientifique se dirige vers la science ouverte, il est crucial de rendre les données des simulations MD non seulement accessibles mais aussi utilisables pour tout le monde. Ces dernières années, des discussions ont commencé sur le partage des données MD, et la tendance a gagné en momentum, surtout pendant la pandémie de COVID-19. Des bases de données ont été créées pour stocker des simulations liées à des sujets spécifiques comme les structures de protéines ou les protéines de membrane.
Malgré les efforts précédents pour créer des dépôts de données pour les simulations MD, il n'existe toujours pas de place centrale pour tous les types de fichiers de simulation MD. C'est en partie dû à l'énorme quantité de données et aux différents formats utilisés. Actuellement, les chercheurs partagent souvent leurs fichiers de simulation dans divers dépôts généraux, ce qui rend difficile la recherche d'informations spécifiques, comme des données sur une protéine particulière.
Cette nature dispersée des données peut être vue comme la matière noire de la MD, qui, selon nous, a besoin de plus d'attention. Lorsque plus de fichiers MD deviendront accessibles publiquement, cela aidera à les rendre plus faciles à utiliser. En suivant les principes FAIR, la reproductibilité des simulations MD peut être améliorée.
Méthodologie de Collecte de Données
Dans notre travail, nous avons mis en place une méthode pour indexer les fichiers de simulation MD dispersés trouvés dans les dépôts généraux. Nous nous sommes concentrés sur les fichiers générés par GROMACS, un logiciel populaire utilisé pour les simulations MD. Nous avons effectué une analyse à grande échelle des données MD disponibles publiquement pour révéler leur signification.
Nous avons découvert différentes catégories de molécules simulées et détaillé les conditions utilisées dans ces systèmes. Basé sur nos découvertes, nous avons proposé un prototype de moteur de recherche pour faciliter l'exploration de cette vaste collection de données MD. De plus, nous avons fourni des directives simples pour le partage de données afin d'améliorer la FAIRness des données MD.
À mesure que la science ouverte se développe, de plus en plus de chercheurs partagent leurs données dans des dépôts généraux comme Zenodo, Figshare et le Open Science Framework. Dans notre analyse, nous avons examiné trois dépôts majeurs pour voir combien de fichiers liés à la MD étaient stockés.
Pour indexer les fichiers de simulation MD, nous avons créé une méthode de recherche basée sur le texte qui combinait des mots-clés avec les types de fichiers. Malheureusement, cette approche a souvent conduit à des résultats incorrects en raison de l'incohérence des métadonnées, telles que les titres et descriptions, accompagnant les ensembles de données. Les métadonnées étaient fournies par des utilisateurs sans aucune incitation à ajouter des détails pertinents, rendant difficile pour les autres de comprendre les simulations.
Pour surmonter ce défi, nous avons développé une stratégie de recherche spécifique appelée Explore and Expand (Ex2). Dans la phase Explore, nous avons recherché des fichiers basés sur le type et les mots-clés. Dans la phase Expand, nous avons indexé tous les fichiers dans les ensembles de données identifiés sans limiter les types de fichiers.
En utilisant notre approche, nous avons indexé environ 250 000 fichiers et 2 000 ensembles de données, représentant 14 To de données. Un défi majeur auquel nous avons été confrontés était le nombre de fichiers stockés dans des archives compressées, ce qui rendait souvent difficile l'analyse des données car elles n'étaient pas recherchables individuellement.
Le premier ensemble de données MD que nous avons trouvé a été déposé en août 2012, mais une augmentation notable du stockage des données MD a commencé en 2016. Le nombre de fichiers déposés a fortement augmenté ces dernières années, soulignant une tendance croissante que nous croyons qui va continuer à l'avenir.
Analyse des Données MD
Dans notre analyse, nous avons attribué les fichiers indexés à divers logiciels de MD en fonction de leurs types de fichiers correspondants. Parmi les différents programmes, Gromacs était le plus représenté avec plus de 87 000 fichiers, suivi d'autres comme NAMD et AMBER.
Notamment, nous avons trouvé de nombreux fichiers qui n'étaient pas directement liés à un package MD spécifique. Une analyse de ces fichiers non spécifiés a montré une variété de types de données, y compris les coordonnées de structure et les images. En nous concentrant sur les données Gromacs, le type de fichier le plus courant était .xtc, qui stocke des informations de trajectoire.
Malgré le grand volume de ces fichiers de trajectoire, ils ne sont pas directement lisibles et nécessitent des outils supplémentaires pour les analyser. Cela peut limiter leur utilisation sans les fichiers de coordonnées correspondants. D'autres types de fichiers comme .trr fournissent également des informations précieuses mais avec des limitations de taille.
Notre examen a révélé qu'un nombre substantiel de fichiers de trajectoire Gromacs étaient stockés dans des dépôts généraux par rapport aux bases de données spécialisées existantes. Cependant, beaucoup de ces trajectoires doivent être évaluées davantage pour déterminer leur pertinence.
Ensuite, nous avons analysé les systèmes étudiés par les chercheurs en MD qui ont déposé leurs fichiers. Nous avons analysé les fichiers .gro pour obtenir des informations sur le nombre de particules et les types de molécules simulées. Nos résultats ont montré une variété de systèmes, y compris des protéines, des lipides et des acides nucléiques.
De plus, nous avons identifié de nombreux fichiers de topologie, qui décrivent la structure moléculaire, stockés dans les dépôts. Ces fichiers contiennent des informations provenant de processus longs qui peuvent faire gagner du temps aux chercheurs travaillant sur des études similaires.
En outre, nous avons examiné les paramètres utilisés par les chercheurs dans leurs simulations MD. Les paramètres d'entrée ont été analysés, révélant des tendances sur combien de temps les simulations étaient configurées et quelles méthodes étaient utilisées. La majorité des simulations étaient conçues pour fonctionner pendant 50 ns ou moins, mais certaines allaient au-delà d'une microseconde.
Partage et Amélioration des Pratiques de Données MD
Nos résultats montrent que le partage de données des simulations MD devient de plus en plus courant. En indexant des fichiers provenant de divers dépôts, nous espérons éclairer sur les données disponibles et encourager des pratiques qui favorisent un meilleur partage.
Pour améliorer le partage des données MD, nous proposons plusieurs directives à suivre pour les chercheurs. D'abord, évitez d'utiliser des formats de fichiers compressés comme zip ou tar, qui peuvent rendre plus difficile un bon indexage des données. Autant que possible, les fichiers de données originaux devraient être déposés directement.
Ensuite, il est essentiel de fournir des métadonnées étendues lors de la description des ensembles de données. Des informations concernant l'objet de l'étude, les méthodes, le logiciel utilisé, les paramètres de simulation et la composition moléculaire sont cruciales pour que les autres puissent interpréter les données correctement.
Lier des ensembles de données à des articles de recherche connexes et d'autres ressources associées améliorera également leur découvrabilité. Il est important de fournir des fichiers suffisants pour reproduire les simulations tout en reliant clairement les fichiers associés ensemble.
En outre, les chercheurs devraient revisiter leurs dépôts de données après publication pour mettre à jour les informations si nécessaire. Maintenir des métadonnées précises est essentiel pour garantir que les données restent faciles à trouver et à utiliser.
Notre travail souligne l'importance d'améliorer la FAIRness des données MD en améliorant la qualité des métadonnées. Cela rendra non seulement les données plus accessibles mais aidera également les chercheurs futurs qui s'intéressent à réanalyser les simulations.
Conclusion et Futurs Directions
En résumé, nous avons montré que le partage de données générées à partir de simulations MD est devenu plus répandu. En indexant un nombre substantiel de fichiers à travers divers dépôts, nous avons révélé la tendance croissante du stockage des données MD.
Ces données offrent de nombreuses opportunités pour les chercheurs, que ce soit pour ceux qui n'ont peut-être pas accès à des ressources informatiques hautes performances ou pour ceux qui s'intéressent à utiliser des simulations existantes pour des analyses supplémentaires. Construire des ensembles de données bien annotés sera également crucial pour le développement de modèles IA qui peuvent faire avancer la recherche dans ce domaine.
De plus, améliorer les métadonnées associées aux données disponibles augmentera leur utilisabilité et facilitera la reproductibilité des simulations MD. Nous voyons un fort potentiel pour promouvoir de bonnes pratiques tant dans la configuration que le partage des simulations MD.
En avançant, nous visons à connecter les données MD avec d'autres résultats de recherche, tels que des articles associés, pour enrichir le contexte entourant les données. En cherchant à obtenir des métadonnées standardisées et un vocabulaire contrôlé, nous pouvons favoriser de meilleures pratiques dans le partage des données et faire avancer le domaine de la dynamique moléculaire.
Titre: MDverse: Shedding Light on the Dark Matter of Molecular Dynamics Simulations
Résumé: The rise of open science and the absence of a global dedicated data repository for molecular dynamics (MD) simulations has led to the accumulation of MD [fi]les in generalist data repositories, constituting the dark matter of MD -- data that is technically accessible, but neither indexed, curated, or easily searchable. Leveraging an original search strategy, we found and indexed about 250,000 [fi]les and 2,000 datasets from Zenodo, Figshare and Open Science Framework. With a focus on [fi]les produced by the Gromacs MD software, we illustrate the potential offered by the mining of publicly available MD data. We identi[fi]ed systems with speci[fi]c molecular composition and were able to characterize essential parameters of MD simulation such as temperature and simulation length, and could identify model resolution, such as all-atom and coarse-grain. Based on this analysis, we inferred metadata to propose a search engine prototype to explore the MD data. To continue in this direction, we call on the community to pursue the effort of sharing MD data, and to report and standardize metadata to reuse this valuable matter.
Auteurs: J. K. S. Tiemann, M. Szczuka, L. Bouarroudj, M. Oussaren, S. Garcia, R. J. Howard, L. Delemotte, E. Lindahl, M. Baaden, K. Lindorff-Larsen, M. Chavent, P. Poulain
Dernière mise à jour: 2024-05-03 00:00:00
Langue: English
Source URL: https://www.biorxiv.org/content/10.1101/2023.05.02.538537
Source PDF: https://www.biorxiv.org/content/10.1101/2023.05.02.538537.full.pdf
Licence: https://creativecommons.org/licenses/by/4.0/
Changements: Ce résumé a été créé avec l'aide de l'IA et peut contenir des inexactitudes. Pour obtenir des informations précises, veuillez vous référer aux documents sources originaux dont les liens figurent ici.
Merci à biorxiv pour l'utilisation de son interopérabilité en libre accès.
Liens de référence
- https://covid.bioexcel.eu
- https://zenodo.org
- https://figshare.com
- https://osf.io
- https://datadryad.org/
- https://www.deshawresearch.com/downloads/download_trajectory_sarscov2.cgi/
- https://nmrlipids.blogspot.com
- https://manual.gromacs.org/documentation/current/user-guide/mdp-options.html
- https://mdverse.streamlit.app/
- https://github.com/CSSEGISandData/COVID-19
- https://github.com/MDverse/mdws/blob/main/params/query.yml
- https://github.com/MDverse/mdws/blob/main/params/residue_names.yml
- https://manual.gromacs.org/current/onlinehelp/gmx-check.html
- https://zenodo.org/record/3756664
- https://doi.org/10.1039/D0CP03473H
- https://zenodo.org/record/3989044
- https://doi.org/10.1021/acs.jctc.0c01338
- https://figshare.com/articles/dataset/Capturing_Protein_Ligand_Recognition_Pathways_in_Coarse-Grained_Simulation/12517490/1
- https://doi.org/10.1021/acs.jpclett.0c01683
- https://figshare.com/articles/dataset/Alchemical_Hydration_Free-Energy_Calculations_Using_Molecular_Dynamics_with_Explicit_Polarization_and_Induced_Polarity_Decoupling_An_On_the_Fly_Polarization_Approach/11702442
- https://doi.org/10.1021/acs.jctc.9b01139
- https://zenodo.org/record/4371296
- https://doi.org/10.1021/acs.jcim.0c01312
- https://zenodo.org/record/3634884
- https://doi.org/10.1073/pnas.1918387117
- https://zenodo.org/record/6797842
- https://doi.org/10.7554/eLife.81432
- https://zenodo.org/record/1308045
- https://doi.org/10.1371/journal.pcbi.1006642
- https://zenodo.org/record/5594466
- https://doi.org/10.1021/jacs.1c11248
- https://osf.io/4aghb/
- https://doi.org/10.1073/pnas.2116543119
- https://zenodo.org/record/7120845
- https://doi.org/10.1038/s41467-022-34077-z
- https://acs.figshare.com/articles/dataset/Fluorescence_Probing_of_Thiol_Functionalized_Gold_Nanoparticles_Is_Alkylthiol_Coating_of_a_Nanoparticle_as_Hydrophobic_as_Expected_/2481241Publication
- https://doi.org/10.1021/jp3060813
- https://acs.figshare.com/articles/dataset/Modeling_Gd_sup_3_sup_Complexes_for_Molecular_Dynamics_Simulations_Toward_a_Rational_Optimization_of_MRI_Contrast_Agents/20334621
- https://doi.org/10.1021/acs.inorgchem.2c01597
- https://acs.figshare.com/articles/dataset/Rationalizing_the_Activity_of_an_Artificial_Diels-Alderase_Establishing_Efficient_and_Accurate_Protocols_for_Calculating_Supramolecular_Catalysis/11569452
- https://doi.org/10.1021/jacs.9b10302
- https://acs.figshare.com/articles/dataset/Nucleation_Mechanisms_of_Self-Assembled_Physisorbed_Monolayers_on_Graphite/8846045
- https://doi.org/10.1021/acs.jpcc.9b01234
- https://figshare.com/articles/dataset/PTEG-1_PP_and_N-DMBI_atomistic_force_fields/5458144
- https://doi.org/10.1039/C7TA06609K
- https://figshare.com/articles/dataset/Neat_and_P3HT-Based_Blend_Morphologies_for_PCBM_and_PTEG-1/12338633
- https://doi.org/10.1002/adfm.202004799
- https://figshare.com/articles/dataset/A_Comparison_of_Methods_for_Computing_Relative_Anhydrous_Hydrate_Stability_with_Molecular_Simulation/21644393
- https://doi.org/10.1021/acs.cgd.2c00832