Simple Science

Ciência de ponta explicada de forma simples

# Biologia# Bioinformática

Avançando a Descoberta de Medicamentos com Aprendizado de Máquina

Usando IA pra melhorar a identificação de alvos de medicamentos e reduzir os custos de descoberta.

― 6 min ler


A IA melhora os processosA IA melhora os processosde descoberta demedicamentosdrogas.precisão na identificação de alvos paraAprendizado de máquina melhora a
Índice

O custo de trazer um novo remédio pro mercado já passou de um bilhão de dólares e ainda tá subindo. Ao mesmo tempo, os avanços no sequenciamento do genoma humano tão revelando novas doenças e variações em condições que já existem. O método tradicional de descobrir remédios geralmente foca numa doença de cada vez e testa muitos compostos individualmente, o que dificulta acompanhar o surgimento de novas doenças. Novos métodos são necessários em todas as etapas da descoberta de drogas pra lidar com essas mudanças. A tecnologia moderna, especialmente a inteligência artificial (IA) e o Aprendizado de Máquina, pode ajudar, principalmente em áreas onde grandes quantidades de dados podem ser utilizadas.

O Desafio da Descoberta de Drogas

Na descoberta de drogas, um passo importante é descobrir quais proteínas um potencial remédio pode afetar. Esse processo é conhecido como Identificação de Alvos. Às vezes, um remédio pode parecer promissor nos testes laboratoriais, mas precisa de mais investigação pra mostrar como funciona. Essa etapa pode ser cara, demorada e muitas vezes não dá resultados claros.

Nenhum método experimental único pode descobrir definitivamente o alvo de um remédio. A Proteômica, que estuda proteínas, pode identificar alvos desconhecidos usando diferentes métodos como ensaios de pull-down ou observando como um remédio afeta a estabilidade das proteínas. Outra abordagem usa painéis de ensaio pra verificar se um remédio interage com certas classes conhecidas de alvos, como as quinases. No entanto, esse método só consegue testar uma pequena parte dos alvos potenciais.

Recentemente, surgiram novas técnicas que oferecem informações biológicas mais profundas. Por exemplo, ensaios de perfilagem baseados em imagem, como o Cell Painting, criam assinaturas detalhadas de produtos químicos examinando mudanças nas formas e tamanhos das células sob um microscópio. Esses ensaios podem processar milhões de compostos rapidamente e analisar todos os genes do genoma humano usando mudanças genéticas.

Aprendizado de Máquina na Identificação de Alvos de Drogas

Nesse estudo, a gente foca em aplicar um método de aprendizado de máquina pra tornar o processo de identificação de alvos mais rápido e preciso. Queremos conectar potenciais remédios com suas proteínas-alvo. Isso ajuda a explicar como eles funcionam e é essencial pra desenvolver medicamentos.

Usamos um conjunto de dados chamado CPJUMP1, que inclui vários compostos químicos e mudanças genéticas ligadas aos seus efeitos. Esse conjunto tem 302 compostos e 160 genes. Nosso objetivo é criar um modelo de aprendizado de máquina que preveja a probabilidade de um composto interagir com um gene específico baseado nos perfis visuais gerados pelos ensaios de Cell Painting.

Os métodos tradicionais de verificar se um composto afeta um gene dependem da comparação de perfis, mas isso pode ser limitado. Nossa abordagem utiliza um modelo transformer, um tipo de IA que mostrou potencial em entender relações em grandes conjuntos de dados, pra prever essas interações com mais precisão.

Abordagem Experimental

Pra ver quão eficaz é nosso método, desenvolvemos um modelo que prevê se um par gene-composto tem uma conexão genuína. Nós projetamos o conjunto de dados CPJUMP1 pra incluir pares de compostos e genes que provavelmente estão relacionados.

Usamos várias estratégias pra testar nosso modelo. Um jeito foi deixar de fora certos compostos pra ver se nosso modelo ainda conseguia identificar conexões. Outro jeito foi deixar de fora certos genes. Por fim, a terceira abordagem foi deixar de fora aleatoriamente pares de compostos e genes. Cada abordagem ajuda a entender como o modelo se sai em diferentes circunstâncias.

Três métodos de referência foram usados pra comparar o desempenho do nosso modelo: correspondência direta de perfis, uma abordagem baseada em similaridade e o treinamento de um classificador separado pra cada alvo gênico. Nosso modelo usa a morfologia do gene pra melhorar as previsões e, esperamos, trazer resultados melhores do que os métodos de referência.

Resultados

Nossos achados mostram que o modelo se sai bem em cenários onde as conexões de compostos são conhecidas a partir dos dados de treinamento. Em casos onde compostos não foram vistos durante o treinamento, o modelo ainda conseguiu prever possíveis conexões gênicas, embora tenha sido menos eficaz ao tentar identificar genes que não tinham mostrado conexões anteriores.

Pra genes novos, o modelo enfrentou desafios significativos. Diferente dos cenários de compostos onde compostos similares costumam compartilhar relações funcionais, o cenário de previsão de genes novos apresenta mais diversidade. Essa diversidade entre genes torna mais difícil determinar conexões pra genes não vistos, levando a um desempenho mais baixo.

Pra aprofundar, também exploramos outro método de teste onde tanto genes quanto compostos poderiam ter sido perdidos no treinamento. Aqui, o modelo geralmente teve dificuldades, a menos que ambos os componentes tivessem conexões positivas anteriores no conjunto de treinamento.

Discussão

Os resultados indicam que usar uma combinação de perfilagem baseada em imagem e aprendizado de máquina oferece um meio mais preciso de prever quais drogas podem interagir com quais proteínas. O modelo consegue prever alvos quando há dados de fundo suficientes disponíveis, especialmente pra conexões que já foram observadas anteriormente.

No entanto, os desafios com genes novos destacam a necessidade de um conjunto de dados mais amplo que cubra proteínas mais diversas. Como muitos remédios afetam múltiplos alvos, os dados de treinamento precisam refletir essa complexidade pra melhorar a precisão.

Pesquisas futuras devem buscar reunir conjuntos de dados maiores e investigar diferentes estratégias pra aprimorar as capacidades preditivas. Integrar fontes adicionais de dados, como aquelas baseadas em estruturas químicas e funções de proteínas, poderia melhorar ainda mais a eficácia do modelo.

Conclusão

Nosso trabalho destaca o potencial de usar perfilagem baseada em imagem combinada com aprendizado de máquina pra aprimorar a identificação de alvos de drogas. Esse método pode reduzir significativamente os custos no processo de descoberta de drogas e acelerar o tempo pra encontrar novos tratamentos.

Melhorar o poder preditivo pra alvos gênicos novos continua sendo um desafio, mas é crucial pra avançar a descoberta de drogas. Mais pesquisas são necessárias pra criar conjuntos de dados que reflitam melhor a complexidade das interações gene-alvo e desenvolver métodos que acomodem essa diversidade.

Ao continuar melhorando essas técnicas e integrando várias fontes de dados, podemos agilizar o processo de descoberta de drogas, abrindo caminho pra novas e eficazes soluções terapêuticas.

Fonte original

Título: Cell morphological representations of genes enhance prediction of drug targets

Resumo: Identifying how a given chemical of interest exerts its impact on biological systems is a critical step in developing new medicines and chemical products. The mechanism of a query compound of interest can sometimes be identified when its image-based morphological profile matches a compound in a library of well-annotated compound profiles. In this study, we demonstrate a significant improvement in classification performance by incorporating side information: gene representations. We generate these representations using the morphological profiles of cells where the level of a single genes expression has been artificially increased or decreased. The genes are selected as those encoding known protein targets of annotated compounds in the library. A transformer model is trained to classify gene-compound pairs, where each pair represents a potential interaction between a gene and a compound, as true or false. Subsequently, the model generates a ranked list of likely target genes for a previously unseen query compound. Although the strategy exhibits high performance only for compounds that target previously encountered genes - likely due to the limited size of our training dataset - the performance increase demonstrates a notable improvement over simply matching compound profiles directly to compound profiles or to gene profiles. Larger datasets may improve the prediction capabilities of this approach, enabling the prediction of gene targets for novel compounds, which can then be experimentally validated.

Autores: Shantanu Singh, N. S. Iyer, D. J. Michael, S.-Y. G. Chi, J. Arevalo, S. N. Chandrasekaran, A. E. Carpenter, P. Rajpurkar

Última atualização: 2024-06-10 00:00:00

Idioma: English

Fonte URL: https://www.biorxiv.org/content/10.1101/2024.06.08.598076

Fonte PDF: https://www.biorxiv.org/content/10.1101/2024.06.08.598076.full.pdf

Licença: https://creativecommons.org/licenses/by/4.0/

Alterações: Este resumo foi elaborado com a assistência da AI e pode conter imprecisões. Para obter informações exactas, consulte os documentos originais ligados aqui.

Obrigado ao biorxiv pela utilização da sua interoperabilidade de acesso aberto.

Mais de autores

Artigos semelhantes