Simple Science

Ciência de ponta explicada de forma simples

# Biologia# Bioinformática

Avanços na Previsão de Função de Proteínas

Novos métodos melhoram a previsão de função de proteínas usando embeddings menores e buscas de estrutura.

― 6 min ler


Revolução na Previsão deRevolução na Previsão deFunção de Proteínaseficiência na análise de proteínas.Novas técnicas melhoram a precisão e a
Índice

Proteínas são essenciais para todos os organismos vivos, e entender suas funções ajuda em várias áreas, como medicina e biotecnologia. Quando os cientistas descobrem uma nova proteína, eles tentam descobrir o que ela faz. Uma maneira comum de fazer isso é comparando-a com proteínas conhecidas que já foram estudadas. Se a nova proteína tiver uma sequência ou estrutura similar a uma proteína conhecida, ela pode ter funções parecidas.

Métodos de Comparação de Sequências

Um dos métodos mais simples para comparar proteínas é através de suas sequências primárias. Cientistas costumam usar ferramentas como BLASTP, que verifica rapidamente as semelhanças entre sequências de proteínas. No entanto, esse método tem dificuldades quando as duas sequências são menos de 20% similares. Para melhorar a sensibilidade, os pesquisadores usam técnicas mais avançadas que criam "perfis" a partir de múltiplas sequências. Isso inclui métodos como PSI-BLAST e HMMER3. Essas abordagens conseguem identificar proteínas mais distantes, mas requerem mais recursos computacionais para gerar os dados necessários.

Modelos de Markov Ocultos de Perfil

Modelos de Markov Ocultos de Perfil (HMMs) são usados para analisar sequências de forma estruturada. Cada posição na proteína é modelada com base na probabilidade de vários aminoácidos aparecerem nessa posição, além das probabilidades de inserções ou deleções. No entanto, criar esses perfis pode ser demorado e requer uma quantidade significativa de poder computacional.

Pesquisas de Estruturas de Proteínas

Pesquisar proteínas com base em sua estrutura tridimensional pode ser mais sensível do que buscas por sequência. Tradicionalmente, a falta de bancos de dados abrangentes limitou essas pesquisas. Porém, avanços na previsão de estruturas de proteínas usando programas como AlphaFold2 mudaram isso. Agora, os cientistas podem gerar inúmeras estruturas previstas, tornando as buscas por estruturas mais fáceis.

Ferramentas de Busca Estrutural

Algoritmos recentes como Foldseek e RUPEE permitem que pesquisadores comparem rapidamente as estruturas das proteínas. O Foldseek utiliza um alfabeto especial para codificar interações tridimensionais, o que ajuda a acelerar significativamente as buscas. Embora as buscas baseadas em estruturas ofereçam melhor sensibilidade, elas também têm desafios, como a necessidade de traduzir sequências em estruturas.

Aprendizado Profundo na Anotação de Proteínas

Métodos mais recentes para prever funções de proteínas dependem de aprendizado profundo. Esses sistemas pegam sequências de proteínas como entrada e podem gerar classificações ou descrições detalhadas. Eles criam diferentes tipos de representações chamadas embeddings. Embeddings posicionais capturam as características de cada aminoácido em relação à sua posição na proteína.

As dimensões desses embeddings podem ser bem grandes, o que os torna pesados em termos de armazenamento e computação. Pesquisadores perceberam que embeddings menores podem ser mais eficazes, especialmente se puderem ser processados mais rápido.

Criando Embeddings Menores

Em estudos recentes, pesquisadores investigaram o uso de modelos existentes para criar embeddings menores que sejam mais fáceis de lidar, mas ainda eficazes. Por exemplo, testaram um modelo chamado ESM-2 para converter sequências de proteínas em diferentes formatos compatíveis com ferramentas de busca estabelecidas. Isso permitiria combinar a velocidade das buscas de perfil com a sensibilidade das buscas estruturais.

Testando o Modelo

Os pesquisadores construíram e testaram seus novos modelos para garantir que funcionassem bem. Usaram vários benchmarks, incluindo famílias de proteínas com conexões evolutivas conhecidas, para avaliar a precisão de suas previsões. Os resultados mostraram que os novos métodos melhoraram a capacidade de encontrar proteínas relacionadas em comparação com os métodos tradicionais de sequência.

Comparações de Desempenho

Comparando o desempenho dos novos métodos com abordagens clássicas, os resultados indicaram que as sequências 3Di reestruturadas proporcionaram melhores taxas de detecção para proteínas com pouca similaridade de sequência. Alguns testes mostraram que métodos baseados em sequências 3Di superaram aqueles baseados em sequências tradicionais, principalmente ao procurar por proteínas distantes.

As Vantagens das Sequências 3Di

Sequências 3Di são uma nova forma de codificar a estrutura das proteínas que facilita a busca em bancos de dados. Essas sequências ocupam menos espaço e são mais rápidas de processar do que os métodos tradicionais. Os experimentos mostraram que usar o Foldseek para buscar proteínas codificadas como sequências 3Di resultou em alta sensibilidade e precisão.

Aplicações Práticas

As aplicações práticas desses novos métodos são significativas. Eles podem analisar rapidamente grandes quantidades de dados protéicos. Isso é particularmente útil em genômica, onde os pesquisadores costumam lidar com muitas sequências novas de genomas sequenciados. Ao transformar sequências de aminoácidos em formatos convenientes, o fluxo de trabalho para atribuir funções a novas proteínas poderia ser muito melhorado.

Direções Futuras

Há muitas oportunidades para melhorias nessa área. Pesquisadores estão buscando maneiras de aprimorar os algoritmos para criar embeddings, além de tornar os processos de busca mais rápidos. Uma área de grande interesse é criar embeddings ainda menores que mantenham ou melhorem a sensibilidade, sem tornar a computação muito complexa.

O trabalho futuro também pode explorar o desenvolvimento de arquiteturas assimétricas. Isso permitiria processos de embedding mais eficientes, onde seria mais barato codificar sequências de banco de dados em comparação com sequências de consulta. Isso poderia agilizar ainda mais o processo de busca.

Conclusão

Em resumo, os métodos para prever funções de proteínas estão evoluindo rapidamente. Ao combinar modelos avançados e técnicas de busca, os cientistas estão caminhando para previsões de funções de proteínas mais precisas e rápidas. Esse progresso promete muito para várias áreas, incluindo descoberta de medicamentos e biotecnologia, onde entender as funções das proteínas é crucial. O desenvolvimento contínuo de métodos de embedding e algoritmos de busca provavelmente levará a ferramentas ainda melhores para pesquisadores no futuro.

Fonte original

Título: Sensitive remote homology search by local alignment of small positional embeddings from protein language models

Resumo: Accurately detecting distant evolutionary relationships between proteins remains an ongoing challenge in bioinformatics. Search methods based on primary sequence struggle to accurately detect homology between sequences with less than 20% amino acid identity. Profile- and structure-based strategies extend sensitive search capabilities into this twilight zone of sequence similarity but require slow pre-processing steps. Recently, whole-protein and positional embeddings from deep neural networks have shown promise for providing sensitive sequence comparison and annotation at long evolutionary distances. Embeddings are generally faster to compute than profiles and predicted structures but still suffer several drawbacks related to the ability of whole-protein embeddings to discriminate domain-level homology, and the database size and search speed of methods using positional embeddings. In this work, we show that low-dimensionality positional embeddings can be used directly in speed-optimized local search algorithms. As a proof of concept, we use the ESM2 3B model to convert primary sequences directly into the 3Di alphabet or amino acid profiles and use these embeddings as input to the highly optimized Foldseek, HMMER3, and HH-suite search algorithms. Our results suggest that positional embeddings as small as a single byte can provide sufficient information for dramatically improved sensitivity over amino acid sequence searches without sacrificing search speed.

Autores: Sean R Johnson, M. Peshwa, Z. Sun

Última atualização: 2024-02-12 00:00:00

Idioma: English

Fonte URL: https://www.biorxiv.org/content/10.1101/2023.07.26.550718

Fonte PDF: https://www.biorxiv.org/content/10.1101/2023.07.26.550718.full.pdf

Licença: https://creativecommons.org/licenses/by/4.0/

Alterações: Este resumo foi elaborado com a assistência da AI e pode conter imprecisões. Para obter informações exactas, consulte os documentos originais ligados aqui.

Obrigado ao biorxiv pela utilização da sua interoperabilidade de acesso aberto.

Mais de autores

Artigos semelhantes