Expandindo o Cenário de Compartilhamento de Dados de Dinâmica Molecular
Um jeito de melhorar o compartilhamento dos dados de simulação de dinâmica molecular.
― 10 min ler
Índice
A quantidade de dados na biologia aumentou pra caramba nos últimos anos. Isso é graças a novas tecnologias que permitem que os cientistas façam muitos testes rapidamente, muitas vezes chamados de -omics. Junto a isso, métodos de computação melhores e computadores poderosos tornaram mais fácil gerenciar e analisar esses dados.
Um dos principais motivos pra esse boom de dados é o movimento de Acesso Aberto, que busca tornar as descobertas de pesquisa gratuitas pra todo mundo acessar. Esse movimento levou a um aumento significativo na quantidade de dados que os cientistas compartilham. Os cientistas querem que seu trabalho seja usado e aproveitado por outros, o que apoia o progresso científico.
Pra ajudar com o compartilhamento de dados, certos princípios chamados FAIR foram estabelecidos. FAIR significa Encontrável, Acessível, Interoperável e Reutilizável. Esses princípios visam tornar os dados de pesquisa mais fáceis de usar novamente e garantir que as descobertas científicas possam ser reproduzidas.
Com mais dados disponíveis, novas ferramentas e tecnologias surgiram que utilizam inteligência artificial (IA). Um exemplo notável é o AlphaFold, uma ferramenta que prevê a estrutura de proteínas com base em sua sequência. O desenvolvimento de ferramentas como o AlphaFold só foi possível porque existem bancos de dados públicos bem organizados contendo informações detalhadas sobre estruturas e sequências de proteínas.
Outro exemplo envolve as previsões de deslocamentos químicos em estudos de RMN, que dependem de uma coleção de dados do Banco de Dados de Ressonância Magnética Biológica. Se os dados estão bem organizados e disponíveis em grande escala, a IA e o aprendizado profundo podem criar oportunidades interessantes para pesquisa em diferentes áreas.
Dinâmica Molecular e suas Aplicações
A Dinâmica Molecular (DM) é uma área bem conhecida que usa simulações pra dar uma ideia de como as coisas se movem e se comportam, desde processos biológicos até ciência dos materiais. Essa técnica permite que os cientistas vejam movimentos que não podem ser observados diretamente.
As simulações de DM podem produzir uma grande quantidade de dados, especialmente ao modelar moléculas complexas. Embora muitas simulações sejam produzidas pra estudar fenômenos específicos, muitas vezes são usadas apenas para uma publicação. No passado, acreditava-se que armazenar todas as simulações não valia a pena, especialmente porque a qualidade poderia variar. Contudo, ficou claro que o custo de armazenamento é menor comparado aos recursos gastos na geração dos dados. Os dados dessas simulações podem ser um tesouro para pesquisadores que buscam analisá-los novamente, especialmente quando métodos modernos de aprendizado de máquina precisam de grandes quantidades de dados de treinamento.
À medida que a comunidade científica avança rumo à ciência aberta, é crucial tornar os dados das simulações de DM não apenas disponíveis, mas também utilizáveis por todos. Nos últimos anos, discussões começaram sobre o compartilhamento de dados de DM, e a tendência ganhou força, especialmente durante a pandemia de COVID-19. Bancos de dados foram criados para armazenar simulações relacionadas a tópicos específicos, como estruturas de proteínas ou proteínas de membrana.
Apesar dos esforços anteriores pra criar repositórios de dados para simulações de DM, ainda não existe um lugar central para todos os tipos de arquivos de Simulação de DM. Isso se deve em parte à vasta quantidade de dados e aos diferentes formatos usados. Atualmente, os pesquisadores costumam compartilhar seus arquivos de simulação em vários repositórios genéricos, o que dificulta a busca por informações específicas, como dados sobre uma proteína em particular.
Essa natureza dispersa dos dados pode ser vista como a matéria escura da DM, que acreditamos precisar de mais atenção. Quando mais arquivos de DM se tornarem disponíveis publicamente, isso ajudará a torná-los mais acessíveis e utilizáveis. Seguindo os princípios FAIR, a reprodutibilidade das simulações de DM pode ser aprimorada.
Metodologia para Coleta de Dados
No nosso trabalho, implementamos um método pra indexar arquivos de simulação de DM dispersos encontrados em repositórios gerais. Focamos em arquivos gerados pelo GROMACS, um software popular usado para simulações de DM. Fizemos uma análise em larga escala dos dados de DM disponíveis publicamente pra revelar sua importância.
Descobrimos várias categorias de moléculas simuladas e detalhamos as condições usadas nesses sistemas. Com base nas nossas descobertas, propomos um protótipo de motor de busca pra facilitar a exploração dessa vasta coleção de dados de DM. Além disso, fornecemos diretrizes simples para compartilhamento de dados pra melhorar a FAIRness dos dados de DM.
À medida que a ciência aberta cresce, mais pesquisadores estão compartilhando seus dados em repositórios gerais como Zenodo, Figshare e o Open Science Framework. Na nossa análise, examinamos três repositórios principais pra ver quantos arquivos relacionados à DM estavam armazenados.
Pra indexar os arquivos de simulação de DM, criamos um método de busca baseado em texto que combinava palavras-chave com tipos de arquivos. Infelizmente, essa abordagem muitas vezes levou a resultados incorretos por causa da inconsistência nos metadados, como títulos e descrições, que acompanhavam os conjuntos de dados. Os metadados foram fornecidos pelos usuários sem nenhum incentivo pra adicionar detalhes relevantes, tornando desafiador pra outros entenderem as simulações.
Pra superar esse desafio, desenvolvemos uma estratégia de busca específica chamada Explorar e Expandir (Ex2). Na fase de Exploração, buscamos arquivos com base em tipo e palavras-chave. Na fase de Expansão, indexamos todos os arquivos nos conjuntos de dados identificados sem limitar os tipos de arquivos.
Usando nossa abordagem, indexamos aproximadamente 250.000 arquivos e 2.000 conjuntos de dados, representando 14 TB de dados. Um desafio significativo que enfrentamos foi o número de arquivos armazenados em arquivos compactados, o que muitas vezes dificultava a análise dos dados, já que eles não eram pesquisáveis individualmente.
O primeiro conjunto de dados de DM que encontramos foi depositado em agosto de 2012, mas um aumento notável no armazenamento de dados de DM começou em 2016. O número de arquivos depositados subiu rapidamente nos últimos anos, destacando uma tendência crescente que acreditamos que continuará no futuro.
Análise de Dados de DM
Na nossa análise, atribuímos os arquivos indexados a vários pacotes de software de DM com base em seus tipos de arquivo correspondentes. Entre os diferentes programas, o Gromacs foi o mais representado, com mais de 87.000 arquivos, seguido por outros como NAMD e AMBER.
Notavelmente, encontramos muitos arquivos que não estavam diretamente vinculados a nenhum pacote de DM específico. Uma análise desses arquivos não especificados mostrou uma variedade de tipos de dados, incluindo coordenadas de estrutura e imagens. Focando nos dados do Gromacs, o tipo de arquivo mais comum foi o .xtc, que armazena informações de trajetória.
Apesar do grande volume desses arquivos de trajetória, eles não são legíveis diretamente e requerem ferramentas adicionais pra analisá-los. Isso pode limitar seu uso sem os arquivos de coordenadas correspondentes. Outros tipos de arquivos, como .trr, também fornecem informações valiosas, mas vêm com limitações de tamanho.
Nossa investigação revelou que um número substancial de arquivos de trajetória do Gromacs foi armazenado em repositórios gerais em comparação com bancos de dados especializados existentes. No entanto, muitas dessas trajetórias precisam de mais avaliação pra determinar sua relevância.
Em seguida, analisamos os sistemas estudados por pesquisadores de DM que depositaram seus arquivos. Nós analisamos arquivos .gro pra obter insights sobre o número de partículas e tipos de moléculas simuladas. Nossas descobertas mostraram uma variedade de sistemas, incluindo proteínas, lipídios e ácidos nucleicos.
Além disso, identificamos muitos arquivos de topologia, que descrevem a estrutura molecular, armazenados nos repositórios. Esses arquivos contêm informações de processos longos que podem poupar tempo dos pesquisadores ao trabalhar em estudos semelhantes.
Além disso, olhamos para as configurações de parâmetros usadas pelos pesquisadores em suas simulações de DM. Os parâmetros de entrada foram analisados, revelando tendências sobre quanto tempo as simulações foram configuradas e quais métodos foram usados. A maioria das simulações foi projetada pra rodar por 50 ns ou menos, mas algumas foram além de um microsegundo.
Compartilhamento e Melhoria das Práticas de Dados de DM
Nossas descobertas demonstram que compartilhar dados de simulações de DM está se tornando cada vez mais comum. Ao indexar arquivos de vários repositórios, esperamos esclarecer os dados que estão disponíveis e incentivar práticas que promovam um melhor compartilhamento.
Pra melhorar o compartilhamento de dados de DM, propomos várias diretrizes pra que os pesquisadores sigam. Primeiro, evitem usar formatos de arquivos compactados como zip ou tar, que podem dificultar o correto indexamento dos dados. Sempre que possível, os arquivos de dados originais devem ser depositados diretamente.
Em seguida, é essencial fornecer metadados extensivos ao descrever conjuntos de dados. Informações sobre o propósito do estudo, métodos, software usado, configurações de simulação e composição molecular são cruciais pra que outros consigam interpretar os dados com precisão.
Vincular conjuntos de dados a artigos de pesquisa relacionados e outros recursos associados também melhorará a descoberta dos dados. É importante fornecer arquivos suficientes pra reproduzir simulações, vinculando claramente arquivos relacionados.
Além disso, os pesquisadores devem rever seus depósitos de dados após a publicação pra atualizar informações, se necessário. Manter metadados precisos é essencial pra garantir que os dados permaneçam fáceis de encontrar e usar.
Nosso trabalho destaca a importância de melhorar a FAIRness dos dados de DM, aprimorando a qualidade dos metadados. Isso não apenas tornará os dados mais acessíveis, mas também ajudará pesquisadores no futuro que estejam interessados em reanalisar simulações.
Conclusão e Direções Futuras
Resumindo, mostramos que o compartilhamento de dados gerados a partir de simulações de DM se tornou mais prevalente. Ao indexar um número substancial de arquivos em vários repositórios, revelamos a crescente tendência de armazenamento de dados de DM.
Esses dados oferecem inúmeras oportunidades para pesquisadores, desde aqueles que podem não ter acesso a recursos de computação de alto desempenho até aqueles interessados em utilizar simulações existentes para análise adicional. Construir conjuntos de dados bem anotados também será crucial para o desenvolvimento de modelos de IA que podem avançar a pesquisa no campo.
Além disso, melhorar os metadados associados aos dados disponíveis aumentará sua usabilidade e facilitará a reprodutibilidade das simulações de DM. Vemos um forte potencial para promover boas práticas tanto na configuração quanto no compartilhamento de simulações de DM.
À medida que avançamos, pretendemos conectar os dados de DM a outros resultados de pesquisa, como artigos associados, pra enriquecer o contexto em torno dos dados. Ao buscar metadados padronizados e vocabulário controlado, podemos promover melhores práticas no compartilhamento de dados e avançar o campo da dinâmica molecular.
Título: MDverse: Shedding Light on the Dark Matter of Molecular Dynamics Simulations
Resumo: The rise of open science and the absence of a global dedicated data repository for molecular dynamics (MD) simulations has led to the accumulation of MD [fi]les in generalist data repositories, constituting the dark matter of MD -- data that is technically accessible, but neither indexed, curated, or easily searchable. Leveraging an original search strategy, we found and indexed about 250,000 [fi]les and 2,000 datasets from Zenodo, Figshare and Open Science Framework. With a focus on [fi]les produced by the Gromacs MD software, we illustrate the potential offered by the mining of publicly available MD data. We identi[fi]ed systems with speci[fi]c molecular composition and were able to characterize essential parameters of MD simulation such as temperature and simulation length, and could identify model resolution, such as all-atom and coarse-grain. Based on this analysis, we inferred metadata to propose a search engine prototype to explore the MD data. To continue in this direction, we call on the community to pursue the effort of sharing MD data, and to report and standardize metadata to reuse this valuable matter.
Autores: J. K. S. Tiemann, M. Szczuka, L. Bouarroudj, M. Oussaren, S. Garcia, R. J. Howard, L. Delemotte, E. Lindahl, M. Baaden, K. Lindorff-Larsen, M. Chavent, P. Poulain
Última atualização: 2024-05-03 00:00:00
Idioma: English
Fonte URL: https://www.biorxiv.org/content/10.1101/2023.05.02.538537
Fonte PDF: https://www.biorxiv.org/content/10.1101/2023.05.02.538537.full.pdf
Licença: https://creativecommons.org/licenses/by/4.0/
Alterações: Este resumo foi elaborado com a assistência da AI e pode conter imprecisões. Para obter informações exactas, consulte os documentos originais ligados aqui.
Obrigado ao biorxiv pela utilização da sua interoperabilidade de acesso aberto.
Ligações de referência
- https://covid.bioexcel.eu
- https://zenodo.org
- https://figshare.com
- https://osf.io
- https://datadryad.org/
- https://www.deshawresearch.com/downloads/download_trajectory_sarscov2.cgi/
- https://nmrlipids.blogspot.com
- https://manual.gromacs.org/documentation/current/user-guide/mdp-options.html
- https://mdverse.streamlit.app/
- https://github.com/CSSEGISandData/COVID-19
- https://github.com/MDverse/mdws/blob/main/params/query.yml
- https://github.com/MDverse/mdws/blob/main/params/residue_names.yml
- https://manual.gromacs.org/current/onlinehelp/gmx-check.html
- https://zenodo.org/record/3756664
- https://doi.org/10.1039/D0CP03473H
- https://zenodo.org/record/3989044
- https://doi.org/10.1021/acs.jctc.0c01338
- https://figshare.com/articles/dataset/Capturing_Protein_Ligand_Recognition_Pathways_in_Coarse-Grained_Simulation/12517490/1
- https://doi.org/10.1021/acs.jpclett.0c01683
- https://figshare.com/articles/dataset/Alchemical_Hydration_Free-Energy_Calculations_Using_Molecular_Dynamics_with_Explicit_Polarization_and_Induced_Polarity_Decoupling_An_On_the_Fly_Polarization_Approach/11702442
- https://doi.org/10.1021/acs.jctc.9b01139
- https://zenodo.org/record/4371296
- https://doi.org/10.1021/acs.jcim.0c01312
- https://zenodo.org/record/3634884
- https://doi.org/10.1073/pnas.1918387117
- https://zenodo.org/record/6797842
- https://doi.org/10.7554/eLife.81432
- https://zenodo.org/record/1308045
- https://doi.org/10.1371/journal.pcbi.1006642
- https://zenodo.org/record/5594466
- https://doi.org/10.1021/jacs.1c11248
- https://osf.io/4aghb/
- https://doi.org/10.1073/pnas.2116543119
- https://zenodo.org/record/7120845
- https://doi.org/10.1038/s41467-022-34077-z
- https://acs.figshare.com/articles/dataset/Fluorescence_Probing_of_Thiol_Functionalized_Gold_Nanoparticles_Is_Alkylthiol_Coating_of_a_Nanoparticle_as_Hydrophobic_as_Expected_/2481241Publication
- https://doi.org/10.1021/jp3060813
- https://acs.figshare.com/articles/dataset/Modeling_Gd_sup_3_sup_Complexes_for_Molecular_Dynamics_Simulations_Toward_a_Rational_Optimization_of_MRI_Contrast_Agents/20334621
- https://doi.org/10.1021/acs.inorgchem.2c01597
- https://acs.figshare.com/articles/dataset/Rationalizing_the_Activity_of_an_Artificial_Diels-Alderase_Establishing_Efficient_and_Accurate_Protocols_for_Calculating_Supramolecular_Catalysis/11569452
- https://doi.org/10.1021/jacs.9b10302
- https://acs.figshare.com/articles/dataset/Nucleation_Mechanisms_of_Self-Assembled_Physisorbed_Monolayers_on_Graphite/8846045
- https://doi.org/10.1021/acs.jpcc.9b01234
- https://figshare.com/articles/dataset/PTEG-1_PP_and_N-DMBI_atomistic_force_fields/5458144
- https://doi.org/10.1039/C7TA06609K
- https://figshare.com/articles/dataset/Neat_and_P3HT-Based_Blend_Morphologies_for_PCBM_and_PTEG-1/12338633
- https://doi.org/10.1002/adfm.202004799
- https://figshare.com/articles/dataset/A_Comparison_of_Methods_for_Computing_Relative_Anhydrous_Hydrate_Stability_with_Molecular_Simulation/21644393
- https://doi.org/10.1021/acs.cgd.2c00832