Avanços na Engenharia de Proteínas com Modelos de IA
Modelos de linguagem estão mudando como as proteínas são projetadas para a medicina.
― 7 min ler
Índice
- O Que São Modelos de Linguagem?
- Limitações Atuais dos Modelos de Linguagem de Proteínas
- O Potencial dos Modelos de Linguagem Química
- Gerando Proteínas Átomo por Átomo
- Explorando Novos Espaços Químicos
- A Importância da Engenharia de Proteínas
- Conjuntos de dados Usados para Treinamento de Modelos
- Processo de Treinamento dos Modelos de Linguagem
- Avaliação de Performance
- Gerando Proteínas Modificadas
- Conjugados Anticorpo-Drogas
- Os Resultados
- Direções Futuras
- Conclusão
- Fonte original
- Ligações de referência
As proteínas são fundamentais para todos os seres vivos. Elas desempenham várias funções dentro das nossas células. Os cientistas estão sempre à procura de maneiras de criar novas proteínas para usar na medicina e na pesquisa. Avanços recentes em inteligência artificial, especialmente com o uso de modelos de linguagem, mostram que podem ajudar a projetar e produzir proteínas de forma mais eficiente.
O Que São Modelos de Linguagem?
Modelos de linguagem são programas de computador que conseguem aprender padrões em dados. Eles são frequentemente usados no processamento de linguagem natural, tipo entender ou gerar textos. Mais recentemente, esses modelos estão sendo adaptados para entender dados biológicos, como sequências de proteínas. Em vez de apenas olhar para palavras, esses modelos analisam as sequências de aminoácidos que formam as proteínas.
Limitações Atuais dos Modelos de Linguagem de Proteínas
Os modelos de linguagem de proteínas tradicionais têm limitações. Eles só conseguem gerar proteínas a partir de uma lista de aminoácidos que já conhecem. Isso significa que não conseguem criar proteínas com formas novas ou modificadas de aminoácidos. Essa limitação impede os cientistas de explorar totalmente as possibilidades de design de proteínas.
Modelos de Linguagem Química
O Potencial dosOs modelos de linguagem química são diferentes. Eles analisam moléculas menores no nível atômico. Isso significa que eles consideram cada átomo, ligação e estrutura, levando a uma compreensão mais detalhada das interações moleculares. Pesquisadores descobriram que esses modelos químicos podem ser usados para entender e gerar proteínas, quebrando-as em detalhes atômicos. Isso permite a criação de proteínas que vão além do código genético padrão.
Gerando Proteínas Átomo por Átomo
Uma das descobertas importantes é que esses modelos de linguagem química conseguem gerar proteínas completas átomo por átomo. Isso envolve entender os vários níveis de informação molecular que definem as proteínas, desde as suas sequências básicas (a ordem dos aminoácidos) até suas estruturas mais complexas. Usando esses modelos, os pesquisadores podem criar tipos totalmente novos de proteínas, até aquelas com cadeias laterais modificadas que não existem na natureza.
Explorando Novos Espaços Químicos
A pesquisa também mostra que esses modelos podem não só criar proteínas, mas também explorar a área de compostos químicos. Isso significa que eles podem combinar proteínas com pequenas moléculas semelhantes a medicamentos, gerando compostos totalmente novos. Esses compostos poderiam ter usos potenciais no tratamento de doenças, como câncer, projetando medicamentos que atacam especificamente células doentes, enquanto deixam as saudáveis em paz.
Engenharia de Proteínas
A Importância daA engenharia de proteínas é crucial em várias disciplinas científicas. Engenheiros modificam proteínas para combater vírus e cânceres, ou para tratar doenças genéticas. A capacidade dos modelos de linguagem de ajudar nesse processo poderia acelerar muito a pesquisa e o desenvolvimento. Com previsões mais precisas de estruturas de proteínas, os cientistas podem projetar terapias eficazes bem mais rápido.
Conjuntos de dados Usados para Treinamento de Modelos
Para treinar esses modelos de linguagem de forma eficaz, os pesquisadores reuniram diversos conjuntos de dados. Eles focaram em proteínas com 50 a 150 aminoácidos, que é um tamanho comum para muitas proteínas funcionais. O conjunto de dados inclui proteínas de bancos de dados onde os cientistas documentam estruturas de proteínas e suas funções.
Os pesquisadores também criaram conjuntos de dados sintéticos que incluem proteínas modificadas para ter aminoácidos não naturais ou proteínas ligadas a pequenas moléculas. Isso permite que os modelos aprendam com uma variedade maior de exemplos, melhorando ainda mais sua capacidade de gerar proteínas novas.
Processo de Treinamento dos Modelos de Linguagem
O processo de treinamento envolve decifrar os dados de proteínas em um formato que os modelos possam entender. Isso inclui traduzir as estruturas das proteínas em sequências lineares que representam os componentes atômicos. Os modelos aprendem analisando essas sequências e prevendo a próxima parte com base no contexto do que já viram antes.
Os modelos são projetados para reconhecer padrões dentro dessas sequências. Depois do treinamento, eles conseguem gerar novas sequências que imitam as propriedades de proteínas reais.
Avaliação de Performance
Após gerar novas sequências de proteínas, os pesquisadores avaliam o quanto essas sequências geradas correspondem a proteínas reais. Eles usam ferramentas como o AlphaFold, que prevê como as proteínas provavelmente vão se dobrar com base em suas sequências. Essa avaliação garante que as proteínas geradas não só tenham sequências válidas, mas também estruturas plausíveis.
Eles descobriram que uma porcentagem significativa das amostras geradas eram de fato proteínas com estruturas que poderiam ser previstas com precisão. Isso mostra que os modelos estão aprendendo de forma eficaz.
Gerando Proteínas Modificadas
Além de gerar proteínas padrão, os modelos também foram encarregados de criar proteínas que incluíssem aminoácidos não naturais. Os modelos aprenderam a modificar sequências existentes para incorporar novos elementos enquanto ainda mantinham as proteínas estruturalmente sólidas.
Essa capacidade abre portas para criar proteínas com funções e propriedades totalmente novas que os sistemas biológicos atuais não suportam.
Conjugados Anticorpo-Drogas
Outra aplicação empolgante desses modelos de linguagem é no design de conjugados anticorpo-drogas. Esses são proteínas especiais usadas em terapias direcionadas para doenças como câncer. Elas conectam um anticorpo, que pode reconhecer e se ligar a células específicas, com uma droga que mata essas células.
Os pesquisadores experimentaram ligar anticorpos a várias pequenas moléculas. Treinando os modelos de linguagem para entender tanto as proteínas quanto os medicamentos, eles conseguem gerar novas combinações que podem funcionar melhor em um contexto terapêutico.
Os Resultados
Os resultados desses experimentos mostram que os modelos de linguagem foram geralmente bem-sucedidos em produzir novas proteínas que se assemelham a proteínas conhecidas, mas também contêm características novas. As proteínas geradas mantiveram uma boa integridade estrutural, indicando que os modelos aprenderam relações significativas entre sequências de aminoácidos e funções de proteínas.
Os estudos revelaram um potencial fascinante para esses modelos mudarem a forma como os cientistas abordam o design biomolecular. Em vez de trabalhar apenas com proteínas conhecidas, agora eles podem se aventurar a criar moléculas totalmente novas com aplicações diversas.
Direções Futuras
Embora os resultados iniciais sejam promissores, ainda há muito trabalho pela frente. Esforços futuros vão se concentrar em melhorar a precisão dos modelos e aumentar sua gama. Isso inclui desenvolver maneiras de gerar proteínas maiores e estruturas mais complexas.
Além disso, é essencial abordar o quão bem os modelos podem prever as formas tridimensionais das proteínas. Sem representações 3D precisas, é complicado garantir que as proteínas geradas recentemente funcionarão como pretendido.
Conclusão
Os avanços no uso de modelos de linguagem para geração de proteínas significam um passo significativo na engenharia de proteínas. Mudando o foco de sequências de aminoácidos para representações atômicas, os pesquisadores podem descobrir novas possibilidades de design de proteínas. A capacidade de criar proteínas não naturais e explorar o espaço de compostos químicos apresenta oportunidades empolgantes no campo da medicina e biotecnologia.
À medida que a tecnologia continua a se desenvolver, o potencial para descobrir novas proteínas e soluções terapêuticas só vai crescer, abrindo caminho para uma nova fronteira na ciência biomolecular.
Título: Atom-by-atom protein generation and beyond with language models
Resumo: Protein language models learn powerful representations directly from sequences of amino acids. However, they are constrained to generate proteins with only the set of amino acids represented in their vocabulary. In contrast, chemical language models learn atom-level representations of smaller molecules that include every atom, bond, and ring. In this work, we show that chemical language models can learn atom-level representations of proteins enabling protein generation unconstrained to the standard genetic code and far beyond it. In doing so, we show that language models can generate entire proteins atom by atom -- effectively learning the multiple hierarchical layers of molecular information that define proteins from their primary sequence to their secondary, and tertiary structure. We demonstrate language models are able to explore beyond protein space -- generating proteins with modified sidechains that form unnatural amino acids. Even further, we find that language models can explore chemical space and protein space simultaneously and generate novel examples of protein-drug conjugates. The results demonstrate the potential for biomolecular design at the atom level using language models.
Autores: Daniel Flam-Shepherd, Kevin Zhu, Alán Aspuru-Guzik
Última atualização: 2023-08-16 00:00:00
Idioma: English
Fonte URL: https://arxiv.org/abs/2308.09482
Fonte PDF: https://arxiv.org/pdf/2308.09482
Licença: https://creativecommons.org/licenses/by/4.0/
Alterações: Este resumo foi elaborado com a assistência da AI e pode conter imprecisões. Para obter informações exactas, consulte os documentos originais ligados aqui.
Obrigado ao arxiv pela utilização da sua interoperabilidade de acesso aberto.