Simple Science

Ciência de ponta explicada de forma simples

# Biologia Quantitativa# Biomoléculas# Aprendizagem de máquinas

OpenProteinSet: Um Novo Recurso para Pesquisa de Proteínas

Um vasto conjunto de dados de alinhamentos de proteínas pra avançar a pesquisa e os insights.

― 6 min ler


OpenProteinSet LançaOpenProteinSet LançaConjunto de Dados Gigantepotencial da pesquisa.de proteínas aumenta a eficiência e oNovo conjunto de dados de alinhamento
Índice

OpenProteinSet é uma grande coleção de dados criada pra apoiar pesquisas na compreensão das estruturas e funções das proteínas. Ela inclui mais de 16 milhões de alinhamentos múltiplos de sequências (MSAs) de proteínas, que são fundamentais para vários estudos biológicos. O objetivo desse conjunto de dados é fornecer aos pesquisadores as ferramentas que eles precisam pra avançar seu trabalho em áreas como bioinformática, Design de Proteínas e aprendizado de máquina relacionado a proteínas.

O que são MSAs?

Alinhamentos múltiplos de sequências (MSAs) são usados pra comparar sequências de proteínas. Eles permitem que os cientistas vejam como proteínas relacionadas podem variar e quais semelhanças elas têm. Cada linha em um MSA representa uma sequência de proteína, e essas sequências são alinhadas de maneira que partes semelhantes fiquem na mesma linha. Esse alinhamento ajuda os pesquisadores a estudarem a evolução e a função das proteínas.

Importância dos MSAs

MSAs são essenciais em várias áreas da pesquisa biológica. Eles ajudam a prever como as proteínas vão funcionar e como elas vão se dobrar em suas formas tridimensionais. Essa forma tridimensional é crucial pro papel da proteína no corpo. Pesquisadores usam MSAs há décadas, mas os avanços recentes em tecnologia aumentaram sua importância. Ferramentas como AlphaFold2 podem usar MSAs pra prever as estruturas das proteínas com alta precisão, permitindo pesquisas mais rápidas e eficazes.

Desafios com os MSAs existentes

Criar MSAs pode ser bem intenso em termos de recursos. Muitos conjuntos de dados existentes não são suficientes pro que a pesquisa moderna precisa. Modelos grandes foram desenvolvidos pra usar MSAs na previsão de Estruturas de Proteínas, mas muitas vezes eles dependem de conjuntos de dados que são pequenos ou desatualizados. Essa limitação pode atrasar o progresso científico. O OpenProteinSet busca resolver isso, oferecendo uma coleção vasta e atualizada de MSAs que os pesquisadores podem usar livremente.

O que está incluído no OpenProteinSet?

O OpenProteinSet contém mais de 16 milhões de MSAs, que estão emparelhados com homólogos estruturais de um conhecido banco de dados de proteínas. Esse conjunto de dados também inclui previsões de estruturas de proteínas feitas pelo AlphaFold2, que é uma ferramenta líder na área. Ao juntar esses elementos, o OpenProteinSet oferece um recurso abrangente pra estudar proteínas.

Como os MSAs são gerados

Pra criar MSAs, os pesquisadores usam grandes bancos de dados de sequências de proteínas. Os MSAs no OpenProteinSet foram criados comparando sequências desses bancos de dados. O processo envolve encontrar sequências relacionadas e alinhá-las de um jeito que destaque suas semelhanças e diferenças. Software avançado foi usado pra garantir máxima sensibilidade ao gerar esses alinhamentos.

Benefícios do OpenProteinSet

O OpenProteinSet oferece vários benefícios pra comunidade científica. Primeiro, ele dá acesso a uma grande quantidade de dados pré-computados que, de outra forma, levariam muitas horas pra serem gerados. Essa acessibilidade facilita pros pesquisadores concentrarem-se nas suas análises em vez do processo de coleta de dados.

Segundo, o OpenProteinSet pode ser usado pra várias aplicações em biologia estrutural, design de proteínas e previsão de funções. Tendo um conjunto de dados rico disponível, os cientistas podem desenvolver novos modelos e métodos pra prever como as proteínas funcionam.

Aplicações potenciais

As aplicações do OpenProteinSet são amplas. Por exemplo, ele pode ajudar na previsão de estruturas de proteínas, permitindo estudos que informam sobre design de medicamentos e estratégias de tratamento de doenças. Também pode ajudar na criação de modelos de linguagem de proteínas, que ajudam a comunidade de bioinformática a entender melhor as proteínas e fazer previsões com base nas suas sequências.

Além disso, o OpenProteinSet pode auxiliar na identificação de proteínas órfãs, que são proteínas com poucos parentes conhecidos. Estudar essas proteínas pode levar a novos insights sobre funções biológicas e mecanismos.

Uso em aprendizado de máquina

O aprendizado de máquina tá sendo cada vez mais usado na biologia, e o OpenProteinSet é um recurso valioso pra essa área. Ao fornecer um grande conjunto de dados, ele permite que os pesquisadores treinem modelos que podem prever o comportamento e a estrutura das proteínas com maior precisão. À medida que os modelos se tornam mais sofisticados, eles vão precisar de grandes quantidades de dados pra aprender, tornando o OpenProteinSet uma ferramenta essencial nessa área.

Como usar o OpenProteinSet

Os pesquisadores podem acessar o OpenProteinSet através de repositórios de dados públicos. Usando o conjunto de dados, eles podem fazer suas análises e construir modelos que podem avançar a compreensão das proteínas. Os dados podem ser utilizados em diferentes contextos, seja na pesquisa acadêmica ou em aplicações industriais.

Limitações do OpenProteinSet

Embora o OpenProteinSet seja um recurso significativo, é importante notar que ele pode não conter sempre os dados mais atuais. À medida que novas sequências de proteínas são descobertas e adicionadas aos bancos de dados, os MSAs no OpenProteinSet podem se tornar desatualizados. Os pesquisadores devem estar cientes disso e usar o conjunto de dados considerando suas potenciais limitações.

Futuro do OpenProteinSet

A equipe por trás do OpenProteinSet planeja mantê-lo atualizado ao longo do tempo. À medida que novos dados sobre proteínas se tornam disponíveis, eles pretendem melhorar o conjunto de dados pra garantir que ele continue relevante e útil. Esse compromisso com a melhoria contínua vai ajudar a manter sua eficácia como ferramenta de pesquisa.

Conclusão

O OpenProteinSet representa um grande avanço na área de biologia estrutural e pesquisa de proteínas. Ao tornar uma vasta coleção de alinhamentos múltiplos de sequências disponível, ele tem o potencial de acelerar pesquisas e levar a descobertas importantes na compreensão das proteínas. Dadas suas amplas aplicações, pesquisadores de várias áreas podem se beneficiar desse recurso, tornando-o um ativo valioso pra comunidade científica.

Fonte original

Título: OpenProteinSet: Training data for structural biology at scale

Resumo: Multiple sequence alignments (MSAs) of proteins encode rich biological information and have been workhorses in bioinformatic methods for tasks like protein design and protein structure prediction for decades. Recent breakthroughs like AlphaFold2 that use transformers to attend directly over large quantities of raw MSAs have reaffirmed their importance. Generation of MSAs is highly computationally intensive, however, and no datasets comparable to those used to train AlphaFold2 have been made available to the research community, hindering progress in machine learning for proteins. To remedy this problem, we introduce OpenProteinSet, an open-source corpus of more than 16 million MSAs, associated structural homologs from the Protein Data Bank, and AlphaFold2 protein structure predictions. We have previously demonstrated the utility of OpenProteinSet by successfully retraining AlphaFold2 on it. We expect OpenProteinSet to be broadly useful as training and validation data for 1) diverse tasks focused on protein structure, function, and design and 2) large-scale multimodal machine learning research.

Autores: Gustaf Ahdritz, Nazim Bouatta, Sachin Kadyan, Lukas Jarosch, Daniel Berenberg, Ian Fisk, Andrew M. Watkins, Stephen Ra, Richard Bonneau, Mohammed AlQuraishi

Última atualização: 2023-08-10 00:00:00

Idioma: English

Fonte URL: https://arxiv.org/abs/2308.05326

Fonte PDF: https://arxiv.org/pdf/2308.05326

Licença: https://creativecommons.org/licenses/by/4.0/

Alterações: Este resumo foi elaborado com a assistência da AI e pode conter imprecisões. Para obter informações exactas, consulte os documentos originais ligados aqui.

Obrigado ao arxiv pela utilização da sua interoperabilidade de acesso aberto.

Mais de autores

Artigos semelhantes