Avanços na Identificação de Coagulantes Usando Aprendizado de Máquina
Esse estudo explora técnicas de aprendizado de máquina pra encontrar novos candidatos a coagulantes.
― 8 min ler
Índice
Encontrar novos medicamentos não é fácil. Os cientistas têm que achar moléculas que funcionem bem pra problemas específicos, tipo doenças, mas que também tenham poucos efeitos colaterais. Isso é importante porque os melhores remédios só afetam as partes ruins do corpo, deixando as boas em paz.
Conforme os pesquisadores estudam mais moléculas, eles podem usar essas informações pra criar modelos úteis que tornam a busca por novos remédios mais rápida. Mas, quando não tem muita informação sobre uma molécula específica, esses modelos podem não funcionar bem. Por exemplo, a gente conhece muitas moléculas que param a coagulação do sangue, mas tem bem menos que ajudam na coagulação.
Esse artigo fala sobre um método pra encontrar novas moléculas que ajudam na coagulação do sangue usando uma técnica chamada aprendizado de máquina. Esse método usa um modelo de aprendizado profundo pra representar as diferentes maneiras que as moléculas podem parecer e agir.
O Processo de Descoberta de Medicamentos
A jornada de criar um remédio começa identificando o que causa uma doença. Depois disso, os cientistas fazem uma lista de possíveis candidatos a medicamentos e checam eles usando modelos de computador. Durante esse processo, várias propriedades de cada candidato são analisadas pra eliminar os mais fracos antes de testá-los em um laboratório. Esse processo economiza tempo e recursos, o que é crucial, já que os testes podem ser caros.
A forma como as moléculas são estruturadas e sua composição química impactam muito suas propriedades, como quão bem elas se dissolvem em líquidos ou seus pontos de fusão. Essa relação entre a estrutura da molécula e suas propriedades é conhecida como Relação Quantitativa Estrutura-Atividade/Propriedade (QSAR).
O aprendizado de máquina ganhou popularidade na descoberta de medicamentos na última década. Essa ascensão se deve ao seu sucesso em outras áreas, como reconhecimento de imagem e processamento de linguagem. Além disso, a quantidade de dados disponíveis para descoberta de medicamentos aumentou significativamente, permitindo soluções mais baseadas em dados.
Aprendizado de Máquina no Design de Medicamentos
O uso inicial de aprendizado de máquina no design de medicamentos pode ser rastreado até os anos 90. A ideia era que as propriedades biológicas poderiam ser descritas com base na estrutura química das moléculas.
Usando relações estrutura-propriedade, os cientistas podem estimar o potencial de um remédio e seu comportamento no corpo, incluindo como ele é absorvido, como se espalha, como é degradado e sua toxicidade.
Prever quão bem um remédio se liga ao seu alvo é um dos maiores desafios. Com as muitas formas que as moléculas podem ser estruturadas, fica difícil encontrar as melhores, e os métodos tradicionais podem levar muito tempo e usar muitos recursos.
Alguns estudos se concentraram em prever quão bem um remédio se liga a alvos proteicos específicos. Vários métodos de aprendizado de máquina foram utilizados, como Máquinas de Vetores de Suporte, Floresta Aleatória e redes neurais pra melhorar esse processo de previsão.
Recentemente, alguns pesquisadores começaram a usar abordagens combinadas onde diferentes modelos trabalham juntos pra aumentar a precisão.
Foco em Coagulantes
Neste estudo, investigamos especificamente coagulantes, que são substâncias que ajudam o sangue a coagular. Um jogador chave nesse sistema é a Proteína C, uma proteína produzida no fígado. Essa proteína geralmente está inativa e precisa ser ativada antes de poder realizar sua função de prevenir a coagulação.
Quando há uma lesão, um processo chamado cascata de coagulação começa, levando à produção de Trombo, uma enzima que ajuda a formar coágulos de sangue. O Trombo desempenha um papel duplo; ele promove a coagulação, mas também ativa a Proteína C. Uma vez ativada, a Proteína C trabalha com outra proteína, a Proteína S, pra combater a coagulação excessiva, inibindo fatores específicos envolvidos no processo de coagulação.
Ao focar na inibição da Proteína C, podemos mudar o equilíbrio para aumentar a coagulação.
O Método
A pesquisa aproveita as técnicas de aprendizado de máquina pra sugerir novos candidatos a coagulantes, especialmente em casos onde tem pouca informação disponível sobre coagulantes existentes.
Inicialmente, fazemos uma visão geral de como as aplicações atuais de aprendizado de máquina ajudam no design de medicamentos antes de nos aprofundarmos nas especificidades dos coagulantes.
A ideia básica é que podemos usar um modelo de aprendizado de máquina pra criar um "mapa" de diferentes moléculas. Pra isso, treinamos um modelo conhecido como Autoencoder, que ajuda a comprimir as informações sobre várias moléculas. Um autoencoder é dividido em duas partes: o encoder, que reduz o tamanho da entrada, e o decoder, que restaura.
O propósito é criar um espaço onde as estruturas dos inibidores conhecidos existentes possam ser usadas pra encontrar novos. Podemos modificar ligeiramente estruturas conhecidas pra criar potenciais novos candidatos.
Metodologia Detalhada
O processo envolve muitos passos. Primeiro, treinamos o autoencoder usando notação SMILES, uma maneira de representar estruturas moleculares em formato de texto. Usando muitos dados de diferentes moléculas, o autoencoder aprende a representar essas estruturas de forma eficaz.
Em seguida, geramos novos candidatos usando diferentes técnicas. Por exemplo, podemos explorar o espaço em torno de inibidores conhecidos, procurando outras estruturas que são semelhantes. Também podemos criar novos candidatos misturando os existentes e procurando por compostos nas proximidades.
Cada candidato pode então ser avaliado com base em vários filtros pra garantir que atendam aos critérios de ser um bom candidato a remédio. Esses filtros podem considerar quão fácil o composto é de sintetizar, sua potencial toxicidade e se se parece com inibidores conhecidos e bem-sucedidos.
Dados e Treinamento
Os dados de treino para o autoencoder vêm de bancos de dados previamente coletados que contêm uma ampla gama de estruturas moleculares. Filtrando os dados e removendo quaisquer variáveis que não ajudarão no nosso aprendizado, garantimos que o modelo obtenha as melhores informações possíveis.
Durante o treinamento, focamos em garantir que o autoencoder aprenda a reconstruir com precisão suas entradas - isso significa que ele pode representar efetivamente as moléculas que já viu antes.
Além disso, construímos modelos pra prever quão bem esses novos candidatos podem se ligar às proteínas-alvo. Realizamos um processo de validação em duas etapas, primeiro classificando os candidatos como ativos ou inativos e, em seguida, prevendo a força de sua ligação.
Gerando Novos Candidatos
Depois que os modelos são desenvolvidos, geramos novos candidatos tanto pra inibidores de Trombo quanto pra inibidores de Proteína C. Pra o Trombo, usamos um método chamado SMOTE pra gerar muitas novas estruturas moleculares candidatas, interpolando entre exemplos conhecidos.
Pra a Proteína C, seguimos uma abordagem semelhante, mas tomamos cuidado pra garantir que estamos gerando compostos que não se pareçam muito com inibidores de Trombo, visando criar um grupo distinto de candidatos.
À medida que geramos as novas moléculas, aplicamos filtros adicionais pra eliminar aquelas que não atendem aos critérios necessários pra um potencial candidato a remédio.
Avaliação dos Resultados
Uma vez que novos candidatos são gerados, analisamos suas propriedades. Tanto pra o Trombo quanto pra Proteína C, olhamos quantos dos novos candidatos gerados são previstos como ativos com base em nossos modelos.
Usando vários métodos de filtragem de dados, como o filtro de Lipinski, podemos avaliar como esses candidatos podem se sair como medicamentos.
Depois, comparamos nossos resultados com outro método chamado MegaMolBART, que também usa aprendizado de máquina pra gerar compostos químicos.
Conclusão
Em resumo, esse estudo examina como o aprendizado de máquina pode ajudar a encontrar novos coagulantes quando os dados são limitados. Aproveitando as capacidades de um autoencoder, conseguimos fornecer uma maneira estruturada de explorar o espaço químico e gerar novos candidatos a medicamentos.
Através de várias técnicas, podemos encontrar potenciais novas moléculas que podem aumentar o processo de coagulação, focando em inibidores conhecidos, enquanto seguimos rigorosos critérios de filtragem e validação.
A abordagem também pode ser valiosa pra outros tipos de proteínas e doenças, mostrando sua versatilidade e potencial na descoberta de medicamentos. Ao entender o mapa químico criado através desse processo, podemos desbloquear novas oportunidades para desenvolver medicamentos eficazes no futuro.
Título: Machine learning-assisted search for novel coagulants: when machine learning can be efficient even if data availability is low
Resumo: Design of new drugs is a challenging process: a candidate molecule should satisfy multiple conditions to act properly and make the least side-effect -- perfect candidates selectively attach to and influence only targets, leaving off-targets intact. The amount of experimental data about various properties of molecules constantly grows, promoting data-driven approaches. However, the applicability of typical predictive machine learning techniques can be substantially limited by a lack of experimental data about a particular target. For example, there are many known Thrombin inhibitors (acting as anticoagulants), but a very limited number of known Protein C inhibitors (coagulants). In this study, we present our approach to suggest new inhibitor candidates by building an effective representation of chemical space. For this aim, we developed a deep learning model -- autoencoder, trained on a large set of molecules in the SMILES format to map the chemical space. Further, we applied different sampling strategies to generate novel coagulant candidates. Symmetrically, we tested our approach on anticoagulant candidates, where we were able to predict their inhibition towards Thrombin. We also compare our approach with MegaMolBART -- another deep learning generative model, but exploiting similar principles of navigation in a chemical space.
Autores: Andrij Rovenchak, Maksym Druchok
Última atualização: 2024-01-03 00:00:00
Idioma: English
Fonte URL: https://arxiv.org/abs/2401.01811
Fonte PDF: https://arxiv.org/pdf/2401.01811
Licença: https://creativecommons.org/licenses/by/4.0/
Alterações: Este resumo foi elaborado com a assistência da AI e pode conter imprecisões. Para obter informações exactas, consulte os documentos originais ligados aqui.
Obrigado ao arxiv pela utilização da sua interoperabilidade de acesso aberto.
Ligações de referência
- https://orcid.org/0000-0002-0452-6873
- https://orcid.org/0000-0003-3094-6414
- https://github.com/mksmd/AE100
- https://www.pdbbind.org.cn
- https://aclanthology.org/K16-1002.pdf
- https://opensmiles.org/opensmiles.html
- https://imbalanced-learn.org
- https://www.rdkit.org
- https://catalog.ngc.nvidia.com/orgs/nvidia/teams/clara/containers/cheminformatics_demo
- https://doi.org/10.6019/chembl.database.27
- https://www.emolecules.com/
- https://www.bindingdb.org
- https://huggingface.co/spaces/simonduerr/diffdock