Simple Science

Ciência de ponta explicada de forma simples

# Biologia # Biofísica

EMSequenceFinder: Uma Nova Era na Modelagem de Proteínas

Um método inovador que melhora a atribuição de sequências de proteínas a partir de mapas de cryo-EM.

Dibyendu Mondal, Vipul Kumar, Tadej Satler, Rakesh Ramachandran, Daniel Saltzberg, Ilan Chemmama, Kala Bharath Pilla, Ignacia Echeverria, Benjamin M. Webb, Meghna Gupta, Klim Verba, Andrej Sali

― 6 min ler


Revolução na Modelagem de Revolução na Modelagem de Proteínas análise da estrutura de proteínas. Novo método aumenta a precisão na
Índice

Quando se trata de entender como as proteínas funcionam, saber a estrutura delas é fundamental. Imagina tentar montar um quebra-cabeça sem ver a imagem na caixa; é assim que os cientistas se sentem quando não têm uma visão clara da estrutura de uma proteína. Felizmente, uma técnica bacana chamada criomicroscopia eletrônica (ou cryo-EM, pro curto) ajuda os cientistas a dar uma olhada mais de perto nas proteínas em seu estado natural.

Cryo-EM é como um super-herói para estudar estruturas moleculares grandes; permite que os pesquisadores vejam essas estruturas com uma resolução quase atômica. Esse método realmente decolou nos últimos anos, facilitando a compreensão de como as proteínas são formadas e como funcionam. Mas, como todo super-herói, também tem seus desafios!

O Processo de Construção de Modelos de Proteínas

Construir um modelo completo da estrutura de uma proteína usando cryo-EM envolve alguns passos, meio que como seguir uma receita pra assar um bolo (sem o cheiro gostoso, claro). A primeira coisa que os cientistas fazem é identificar a estrutura principal da proteína no mapa de densidade. Depois que esse esqueleto é traçado, o próximo passo é atribuir as sequências corretas de aminoácidos a esses fragmentos de esqueleto. Finalmente, os cientistas preenchem as lacunas com cadeias laterais e laços pra completar o modelo.

Mas fazer tudo isso não é tão fácil quanto parece. Métodos tradicionais tornaram isso um pouco automatizado, especialmente para mapas de alta resolução (aqueles com detalhes mais claros que 3.5 Å). Mas quando a resolução cai, as coisas ficam complicadas. Encontrar as sequências certas se torna como tentar achar seu lanche favorito em uma despensa bagunçada — é difícil saber o que você tá olhando!

As Limitações dos Métodos Atuais

Em resoluções médias, tipo entre 4-8 Å, os métodos existentes muitas vezes têm dificuldades. Mesmo que as ferramentas consigam traçar esqueletos, elas costumam deixar a desejar quando se trata de atribuir sequências, especialmente para mapas piores que 4 Å. Pense assim: se as peças do quebra-cabeça da proteína estão meio desfocadas, fica complicado descobrir onde elas se encaixam!

Ajustes manuais podem ajudar, mas são chatos e nem sempre confiáveis. É aí que surge a necessidade de métodos melhores, como um cavaleiro buscando uma espada melhor para a batalha.

Entre o EMSequenceFinder

Pra enfrentar o problema da atribuição de sequências em mapas de baixa resolução, foi desenvolvido um novo método chamado EMSequenceFinder. Imagine como um parceiro de confiança que ajuda os cientistas a encontrar as sequências corretas de aminoácidos mais rápido e com mais precisão.

Esse método usa algo chamado função de pontuação bayesiana pra classificar os 20 tipos padrão de aminoácidos com base em como eles se encaixam no mapa de densidade. É tipo reunir pistas e juntá-las pra resolver um mistério. E com a ajuda de uma Rede Neural Convolucional (CNN), que é um tipo de modelo de aprendizado profundo, o EMSequenceFinder prevê a melhor sequência de pontuação para os fragmentos de esqueleto da proteína.

Como o EMSequenceFinder Funciona

O EMSequenceFinder funciona pegando algumas entradas: o mapa de cryo-EM, os traços do esqueleto e as sequências de aminoácidos. Ele classifica essas sequências com base em como elas se encaixam. Pense nisso como classificar meias por cor – ele vai te dizer qual sequência se encaixa melhor na estrutura da proteína.

A CNN desempenha um papel fundamental analisando uma quantidade enorme de dados de mapas anteriores de cryo-EM e estruturas de proteínas correspondentes. Isso é algo que levaria anos pra um humano fazer, mas pode ser feito em meros segundos por um computador. Usando essa CNN treinada, o EMSequenceFinder consegue identificar a melhor sequência para as estruturas do esqueleto dadas.

O Desempenho do EMSequenceFinder

Nos testes, o EMSequenceFinder mostrou que poderia atribuir sequências com precisão a cerca de 77,8% dos fragmentos de esqueleto para mapas de cryo-EM em resoluções intermediárias. Quando os cientistas aplicaram esse método no estudo da Proteína Não Estrutural 2 (NSP2) do vírus SARS-CoV-2, ele se saiu bem. Com resoluções entre 3,7 a 7,0 Å, o EMSequenceFinder manteve uma precisão variando de 95% em 4 Å a cerca de 50% em 6 Å.

Isso é como passar de adivinhar um número pra realmente resolver um quebra-cabeça — nada mal pra um parceiro!

A Importância da Precisão

Por que essa precisão é tão crucial? Bem, um modelo completo e preciso de uma proteína não só ajuda os cientistas a entender sua função, mas também auxilia no design de medicamentos ou tratamentos. Pense nisso como ter um mapa detalhado antes de embarcar em uma caça ao tesouro; isso torna encontrar o que você tá procurando muito mais fácil.

Colocando o EMSequenceFinder à Prova

Pra garantir que o EMSequenceFinder era pra valer, ele foi comparado com outros métodos de ponta. Os resultados mostraram que o EMSequenceFinder superou os outros, especialmente na área desafiadora dos mapas de média resolução. Enquanto outras ferramentas lutavam, o EMSequenceFinder sempre entregou resultados melhores.

Imagine tentar assar um bolo com uma receita que sempre falta algum ingrediente. O EMSequenceFinder é a receita que tem tudo que você precisa, ajudando a criar um bolo lindo — ou, nesse caso, um modelo de proteína completo.

Aplicações no Mundo Real

As aplicações do EMSequenceFinder são vastas. Tornando possível atribuir sequências com precisão, os cientistas podem agora trabalhar de forma mais eficiente, com menos suposições. É como receber as notas secretas de um grupo de estudo antes de uma prova importante!

Conclusão

Em resumo, estudar estruturas de proteínas é essencial pra entender a biologia e desenvolver novos tratamentos. A criomicroscopia eletrônica fez grandes avanços nessa área, mas desafios permanecem, principalmente em resoluções mais baixas. Com a introdução do EMSequenceFinder, os pesquisadores agora têm um método confiável pra atribuir sequências com precisão a modelos de proteínas, garantindo que eles possam navegar melhor pelo mundo complexo das biomoléculas.

À medida que os cientistas continuam a enfrentar esses desafios, só podemos torcer pra que eles continuem desvendando os mistérios da vida uma proteína de cada vez. Seja a próxima descoberta na medicina ou uma compreensão mais profunda dos mecanismos biológicos, o futuro parece promissor! Então, vamos levantar um brinde à tecnologia e aos valentes cientistas que a utilizam. Saúde a melhores estruturas de proteínas e a todas as descobertas fascinantes que estão esperando logo ali!

Fonte original

Título: Recognizing amino acid sidechains in a medium resolution cryo-electron density map

Resumo: Building an accurate atomic structure model of a protein into a cryo-electron microscopy (cryo-EM) map at worse than 3 [A] resolution is difficult. To facilitate this task, we devised a method for assigning the amino acid residue sequence to the backbone fragments traced in an input cryo-EM map (EMSequenceFinder). EMSequenceFinder relies on a Bayesian scoring function for ranking 20 standard amino acid residue types at a given backbone position, based on the fit to a density map, map resolution, and secondary structure propensity. The fit to a density is quantified by a convolutional neural network that was trained on [~]5.56 million amino acid residue densities extracted from cryo-EM maps at 3-10 [A] resolution and corresponding atomic structure models deposited in the Electron Microscopy Data Bank (EMDB). We benchmarked EMSequenceFinder by predicting the sequences of 58,044 distinct [a]-helix and {beta}-strand fragments, given the fragment backbone coordinates fitted in their density maps. EMSequenceFinder identifies the correct sequence as the best-scoring sequence in 77.8% of these cases. We also assessed EMSequenceFinder on separate datasets of cryo-EM maps at resolutions from 4 to 6 [A]. The accuracy of EMSequenceFinder (63.5%) was better than that of two tested state-of-the-art methods, including findMysequence (45%) and sequence_from_map in Phenix (12.9%). We further illustrate EMSequenceFinder by threading the SARS-CoV-2 NSP2 sequence into eight cryo-EM maps at resolutions from 3.7 to 7.0 [A]. EMSequenceFinder is implemented in our open-source Integrative Modeling Platform (IMP) program. Thus, it is expected to be helpful for integrative structure modeling based on a cryo-EM map and other information, such as models of protein complex components and chemical crosslinks between them.

Autores: Dibyendu Mondal, Vipul Kumar, Tadej Satler, Rakesh Ramachandran, Daniel Saltzberg, Ilan Chemmama, Kala Bharath Pilla, Ignacia Echeverria, Benjamin M. Webb, Meghna Gupta, Klim Verba, Andrej Sali

Última atualização: Dec 12, 2024

Idioma: English

Fonte URL: https://www.biorxiv.org/content/10.1101/2024.12.10.627859

Fonte PDF: https://www.biorxiv.org/content/10.1101/2024.12.10.627859.full.pdf

Licença: https://creativecommons.org/licenses/by-nc/4.0/

Alterações: Este resumo foi elaborado com a assistência da AI e pode conter imprecisões. Para obter informações exactas, consulte os documentos originais ligados aqui.

Obrigado ao biorxiv pela utilização da sua interoperabilidade de acesso aberto.

Artigos semelhantes