Nova Método Liga Estrutura Molecular aos Efeitos Celulares
MoCoP junta dados moleculares e celulares pra melhorar as previsões de descoberta de medicamentos.
― 6 min ler
Índice
Nos últimos anos, usar imagens para estudar células virou um método popular pra identificar como moléculas pequenas afetam elas. Esses métodos criam grandes coleções de imagens que mostram diferentes formatos e tamanhos de células, ajudando os pesquisadores a entender como diferentes moléculas pequenas funcionam. Este artigo fala sobre um novo método, chamado Molecule-Morphology Contrastive Pretraining (MoCoP), que junta informações tanto das estruturas moleculares quanto das imagens das células pra melhorar a previsão de como as moléculas vão se comportar em sistemas biológicos.
Importância da Relação Molécula-Morfologia
A relação entre a estrutura de uma molécula e como ela afeta células vivas é super importante na descoberta de medicamentos. Os pesquisadores precisam prever como mudanças na estrutura de uma molécula vão influenciar a sua capacidade de interagir com alvos biológicos. Esse processo é conhecido como modelagem de Relação Estrutura-Atividade Quantitativa (QSAR). Tradicionalmente, os modelos QSAR dependem de muitos dados, incluindo propriedades químicas e descrições baseadas em como as moléculas aparecem em espaço 2D ou 3D.
Porém, a quantidade de dados disponíveis pode limitar a eficácia desses modelos. Em casos onde testar é caro ou leva muito tempo, os pesquisadores precisam de métodos que ainda consigam dar insights valiosos a partir de conjuntos de dados menores. Pra resolver isso, várias estratégias foram desenvolvidas, incluindo técnicas que permitem que os modelos aprendam com menos exemplos ou façam previsões com uma gama maior de dados de forma mais eficiente.
Papel da Imagem Celular
Tendências recentes na descoberta de medicamentos levam ao uso de Triagem de Alto Conteúdo, onde cientistas capturam imagens de células tratadas com várias moléculas pequenas. Um desses métodos, chamado de Cell Painting assay, cria imagens detalhadas que revelam os efeitos de diferentes moléculas na morfologia celular. Essas imagens podem servir como dados adicionais pra os pesquisadores, ajudando a entender os impactos das moléculas pequenas além da sua estrutura química.
Apesar das vantagens, também existem desafios ao usar imagens celulares. Por exemplo, as imagens podem variar devido a diferentes lotes ou condições em que foram tiradas. Essa inconsistência pode dificultar a criação de modelos confiáveis que se generalizem bem entre diferentes conjuntos de dados. Além disso, modelos tradicionais costumam trabalhar apenas com moléculas que têm imagens correspondentes, o que limita seu uso em processos de triagem mais amplos.
A Abordagem MoCoP
O MoCoP busca combinar dados moleculares com imagens celulares pra criar um modelo mais abrangente que possa aprender com os dois tipos de informação. A abordagem envolve treinar dois modelos simultaneamente: um que foca nas características moleculares e outro que se concentra na morfologia celular.
O MoCoP usa uma técnica de treinamento específica chamada aprendizado contrastivo, que ajuda os modelos a entender melhor as semelhanças e diferenças entre moléculas e seus efeitos nas células. Comparando esses conjuntos de dados emparelhados, os modelos conseguem criar uma representação mais unificada tanto das características moleculares quanto celulares.
Escalando com Grandes Conjuntos de Dados
Pra testar a eficácia do MoCoP, os pesquisadores reuniram um grande conjunto de dados contendo cerca de 100.000 moléculas e 600.000 imagens celulares. Esse conjunto de dados vem do Consórcio JUMP-CP e contém uma ampla variedade de perfis celulares. Ao aumentar o processo de treinamento, os pesquisadores queriam ver se usar um conjunto de dados maior levaria a um melhor desempenho do modelo.
Enquanto treinavam os modelos, eles mediram quão precisamente os modelos conseguiam recuperar os dados moleculares ou morfológicos correspondentes. Os resultados mostraram que, à medida que usavam mais dados durante o treinamento, os modelos ficavam melhores em fazer previsões precisas. Isso sugere que ter acesso a grandes conjuntos de dados pode melhorar muito o treinamento de modelos de aprendizado de máquina.
Avaliando Modelos Pré-treinados
Depois de treinar os modelos usando o MoCoP, os pesquisadores testaram como eles se saíam em várias tarefas. Eles olharam especificamente para previsões relacionadas ao conjunto de dados ChEMBL20, que é amplamente usado pra avaliar modelos QSAR. Eles descobriram que usar o MoCoP levou a melhorias no desempenho do modelo em todos os cenários de teste, independentemente da quantidade de dados usados durante o treinamento.
Em comparações com outros métodos, o MoCoP superou consistentemente os métodos tradicionais de treinamento. Mesmo quando apenas uma pequena quantidade de dados estava disponível, os modelos pré-treinados conseguiram manter um bom desempenho. Isso destaca o potencial de usar o MoCoP pra melhorar previsões em casos onde os dados podem ser limitados.
Desempenho em Conjuntos de Dados Internos
Além dos conjuntos de dados públicos, os pesquisadores também avaliaram o MoCoP em dados internos da GSK. Esse conjunto de dados incluía vários testes, como avaliar como as moléculas são metabolizadas no corpo. Os modelos treinados com MoCoP mostraram melhorias notáveis em prever resultados em comparação com métodos tradicionais.
Usar um processo chamado divisão de scaffold permitiu que os pesquisadores avaliassem o desempenho do modelo de forma mais eficaz, garantindo que os conjuntos de treinamento, validação e teste contivessem grupos distintos de compostos. Esse método possibilitou uma avaliação justa de quão bem os modelos conseguiam prever atividades com base nos dados fornecidos.
Importância dos Dados de Alta Dimensão
Este estudo destaca o valor de utilizar dados de alta dimensão, como imagens celulares, pra melhorar previsões na descoberta de medicamentos. Ao combinar informações de múltiplas fontes, os pesquisadores podem criar modelos que capturam melhor as complexas relações entre estruturas moleculares e efeitos biológicos.
As descobertas sugerem que aproveitar dados de vários ensaios de alto conteúdo-além das apenas imagens celulares-tem o potencial de aumentar ainda mais o desempenho dos modelos. Pesquisas futuras poderiam explorar como incorporar dados de outras medições biológicas, como expressão gênica ou interações proteicas, pode aprimorar previsões na modelagem QSAR.
Conclusão
Resumindo, o método MoCoP representa um avanço significativo na maneira como os pesquisadores podem integrar dados moleculares e celulares pra melhorar previsões na descoberta de medicamentos. As descobertas do estudo demonstram que, ao usar essa abordagem, os pesquisadores conseguem melhorar o desempenho do modelo, especialmente ao trabalhar com conjuntos de dados menores.
No geral, o trabalho destaca a importância de grandes conjuntos de dados de alta qualidade e oferece uma direção promissora pra futuras pesquisas na área de descoberta de medicamentos. A capacidade de utilizar fontes de dados diversas pode levar a melhores previsões, ajudando, em última análise, os cientistas a identificar candidatos a medicamentos promissores de forma mais eficiente.
Título: Molecule-Morphology Contrastive Pretraining for Transferable Molecular Representation
Resumo: Image-based profiling techniques have become increasingly popular over the past decade for their applications in target identification, mechanism-of-action inference, and assay development. These techniques have generated large datasets of cellular morphologies, which are typically used to investigate the effects of small molecule perturbagens. In this work, we extend the impact of such dataset to improving quantitative structure-activity relationship (QSAR) models by introducing Molecule-Morphology Contrastive Pretraining (MoCoP), a framework for learning multi-modal representation of molecular graphs and cellular morphologies. We scale MoCoP to approximately 100K molecules and 600K morphological profiles using data from the JUMP-CP Consortium and show that MoCoP consistently improves performances of graph neural networks (GNNs) on molecular property prediction tasks in ChEMBL20 across all dataset sizes. The pretrained GNNs are also evaluated on internal GSK pharmacokinetic data and show an average improvement of 2.6% and 6.3% in AUPRC for full and low data regimes, respectively. Our findings suggest that integrating cellular morphologies with molecular graphs using MoCoP can significantly improve the performance of QSAR models, ultimately expanding the deep learning toolbox available for QSAR applications.
Autores: Cuong Q. Nguyen, Dante Pertusi, Kim M. Branson
Última atualização: 2023-06-26 00:00:00
Idioma: English
Fonte URL: https://arxiv.org/abs/2305.09790
Fonte PDF: https://arxiv.org/pdf/2305.09790
Licença: https://creativecommons.org/licenses/by-nc-sa/4.0/
Alterações: Este resumo foi elaborado com a assistência da AI e pode conter imprecisões. Para obter informações exactas, consulte os documentos originais ligados aqui.
Obrigado ao arxiv pela utilização da sua interoperabilidade de acesso aberto.