Simple Science

Ciência de ponta explicada de forma simples

# Biologia# Genómica

Avanços na Avaliação de Toxicidade Usando IA

Ferramentas de IA melhoram previsões de dados de toxicidade para a saúde pública.

― 11 min ler


IA na Avaliação deIA na Avaliação deToxicidadede dados de toxicidade.A IA preenche as lacunas nas previsões
Índice

A avaliação da Toxicidade é o processo de testar como substâncias, tipo produtos químicos ou drogas, afetam organismos vivos. Entender a toxicidade é super importante pra garantir a saúde e segurança pública. Com o passar dos anos, os cientistas criaram várias maneiras de avaliar a toxicidade, desde testes tradicionais em laboratório até técnicas mais novas que usam tecnologias avançadas como a toxicogenômica.

O Desafio dos Dados Limitados

Um dos principais obstáculos na criação de novos métodos de avaliação da toxicidade é a disponibilidade limitada de dados. Isso significa que não tem resultados suficientes pra ajudar a entender como diferentes substâncias afetam diferentes partes do corpo. Sem dados adequados, é difícil pros pesquisadores fazerem avaliações precisas.

É aí que entra o projeto DrugMatrix. O DrugMatrix serve como um recurso de dados integrado que junta dados históricos sobre pontos finais de toxicidade tradicionais com dados de abordagens mais novas. Ele reúne informações de estudos que analisam tanto os efeitos dos produtos químicos em vários órgãos quanto como os genes reagem a esses produtos.

O que é o DrugMatrix?

O DrugMatrix é um banco de dados importante que inclui informações de estudos realizados em ratos pra entender como diferentes produtos químicos afetam a saúde deles. Ele abrange mais de 600 produtos químicos diferentes e inclui dados de vários tecidos, como fígado, rins, coração e cérebro. O objetivo é fornecer uma visão completa de como os produtos químicos impactam diferentes sistemas biológicos.

O banco de dados usa duas tecnologias diferentes pra analisar a Expressão Gênica: a plataforma CodeLink e a plataforma Affymetrix. Enquanto a plataforma CodeLink oferece uma gama maior de tecidos analisados, a Affymetrix ainda é bem usada hoje em dia. A maioria dos estudos no DrugMatrix combina dados de expressão gênica com medições de patologia clínica padrão, dando uma visão completa dos efeitos da toxicidade.

Apesar da riqueza de dados no DrugMatrix, cerca de 88% dos possíveis pontos finais ainda estão faltando. Isso significa que tem muitas lacunas nas informações que temos atualmente, especialmente em relação a tecidos que não mostram danos visíveis pela exposição a produtos químicos.

Usando Inteligência Artificial pra Preencher as Lacunas de Dados

Pra resolver o problema dos dados faltando, os pesquisadores estão usando agora técnicas de inteligência artificial (IA) e aprendizado de máquina. Esses métodos podem ajudar a estimar ou prever os pontos finais que estão faltando com base nas informações existentes no DrugMatrix.

Uma abordagem inovadora envolve usar técnicas como L1000 e S1500+, que podem extrapolar dados de um número limitado de genes pra criar um perfil mais completo da expressão gênica. Isso é tipo usar informações parciais pra inferir uma imagem completa do perfil genético de uma pessoa.

Mais recentemente, métodos avançados de IA, como Redes Neurais Adversariais Generativas (GANs), surgiram. Esses métodos podem analisar múltiplos fatores, como tipo de produto químico, órgão afetado e dose, pra prever a expressão gênica em todo o genoma.

Abordando o Problema dos Sinais Raros

Enquanto essas técnicas de IA podem melhorar as previsões, um problema contínuo ainda persiste: a perda de sinais raros, mas importantes, durante a finalização dos dados. Muitos sinais críticos em dados de toxicidade são raros, tornando difícil prever com precisão. Por exemplo, valores positivos na expressão gênica indicam sobre-expressão, enquanto valores negativos sugerem sub-expressão.

Categorias raras, que podem carregar informações essenciais sobre os efeitos químicos, muitas vezes são ignoradas. Pra melhorar as previsões pra essas categorias raras, os pesquisadores estão usando técnicas de amostragem híbridas. Essas técnicas dão mais importância à previsão de categorias raras, permitindo que o modelo aprenda melhor e produza resultados mais precisos.

A Abordagem ToxiCompl

Os pesquisadores desenvolveram um método chamado ToxiCompl pra prever melhor os dados de toxicidade que estão faltando no DrugMatrix. O ToxiCompl incorpora metodologias de amostragem híbridas, permitindo que o modelo se concentre em sinais raros, mas importantes, enquanto mantém a precisão geral.

O método começa garantindo que os dados existentes sejam suficientes pra fazer previsões precisas. Depois, ele usa técnicas de finalização de matriz pra preencher as lacunas. O objetivo é criar um conjunto de dados completo que possa ser mais útil pra estudos de toxicologia futuros sem precisar realizar mais testes em animais.

Validando as Previsões do ToxiCompl

Pra garantir que as previsões feitas pelo ToxiCompl sejam precisas, os pesquisadores usam dois métodos padrão de validação. O primeiro método envolve reter uma pequena parte dos dados existentes pra testar quão bem as previsões combinam com os valores reais. O segundo método inclui examinar os dados previstos de uma perspectiva biológica, procurando padrões e relações entre as expressões gênicas.

No estudo deles, o ToxiCompl mostrou resultados impressionantes. Ele apresentou uma baixa taxa de erro na previsão dos níveis de expressão gênica e alta precisão na identificação de categorias relevantes. Os pesquisadores também validaram as previsões do ToxiCompl contra marcadores toxicológicos conhecidos, levando a uma melhor compreensão de como as toxinas afetam diferentes tecidos.

A Estrutura dos Dados no DrugMatrix

Ao organizar os dados do DrugMatrix em um formato estruturado, os pesquisadores descobriram que existem cerca de 193.000 linhas e 3.000 colunas. Cada linha representa um grupo de tratamento individual, que inclui informações sobre o produto químico, dosagem e duração da exposição. As colunas, por outro lado, representam diferentes tipos de medições, como expressão gênica, química clínica e histopatologia.

Existem várias categorias de dados, incluindo histopatologia, química clínica e hematologia. Por exemplo, na categoria de expressão gênica, os dados são apresentados como razões de amostras tratadas em comparação com amostras controle. No entanto, os dados são distribuídos de maneira desigual, com um foco significativo no fígado e rins, em comparação com outros tecidos.

Técnicas de Finalização de Matriz

Os pesquisadores usam técnicas de finalização de matriz pra reconstruir as partes faltantes do conjunto de dados do DrugMatrix. Eles acreditam que a maior parte da matriz pode ser completada com sucesso porque se assume que é de baixo rank. Isso significa que existem padrões e conexões subjacentes nos dados que os métodos de finalização de matriz podem extrair.

Pra isso, eles usam técnicas como Funk-SVD, que fatoriza a matriz em duas matrizes separadas que podem ser aprendidas a partir das entradas observadas. Essa abordagem permite prever entradas faltantes com base nas relações entre as linhas e colunas na matriz original.

Melhorando as Previsões Focando em Categorias Raras

Dado que muitos sinais essenciais nos dados são raros, os pesquisadores buscam melhorar suas previsões pra essas categorias. Aplicar simplesmente técnicas padrão de finalização de matriz muitas vezes resulta em não capturar sinais importantes, mas infrequentes.

Pra resolver esse problema, eles exploram técnicas de sobreamostragem e subamostragem. Sobreamostragem significa duplicar pontos de dados em categorias menos comuns pra conseguir um conjunto de dados mais equilibrado. Subamostragem, por outro lado, envolve remover aleatoriamente pontos das categorias mais comuns.

Através de experimentos, descobriram que ambas as abordagens melhoraram a previsão de sinais raros no conjunto de dados. Usando amostragem híbrida, combinaram os dois métodos pra melhorar o desempenho geral enquanto mantinham a precisão do modelo.

Usando Otimização Bayesiana pra Amostragem Ideal

Ao invés de escolher distribuições de amostragem manualmente, os pesquisadores recorreram à otimização bayesiana. Essa técnica ajuda a encontrar a melhor distribuição de amostragem que maximiza a Média F1, uma métrica importante pra avaliar o desempenho do modelo.

Através de testes iniciais com várias distribuições, eles identificaram uma que melhorou significativamente o desempenho. Esse método não só aumentou a precisão preditiva, mas também garantiu que o modelo mantivesse um equilíbrio entre a previsão de categorias raras e o desempenho geral do método de finalização de matriz.

Prevendo Dados Contínuos do DrugMatrix

Após melhorar o desempenho do método ToxiCompl usando dados de categoria, os pesquisadores exploraram o uso de dados contínuos no DrugMatrix. Isso envolveu combinar valores de categoria e contínuos, permitindo que eles retivessem o máximo de informações possível.

Aproveitando os insights obtidos dos dados categóricos, o modelo atualizado manteve seu desempenho preditivo e preencheu com precisão as lacunas restantes no conjunto de dados contínuos.

Abordagens Alternativas pra Previsão de Dados

Além de usar o ToxiCompl, os pesquisadores também exploraram métodos alternativos pra prever dados faltantes no DrugMatrix. Por exemplo, eles experimentaram florestas aleatórias, que envolvem usar árvores de decisão pra fazer previsões com base nas entradas. No entanto, esses métodos não superaram o desempenho do ToxiCompl.

Eles também olharam pra usar redes neurais profundas, que consistem em múltiplas camadas conectadas pra processar dados. Embora esses métodos tenham performado melhor que florestas aleatórias, ainda ficaram aquém em comparação com o ToxiCompl.

Redes Neurais Gráficas pra Toxicogenômica

Outra avenue que os pesquisadores consideraram foi usar Redes Neurais Gráficas (GNNs). As GNNs podem modelar relacionamentos complexos entre vários elementos nos dados, tornando-se uma ferramenta poderosa pra lidar com conjuntos de dados de toxicidade. No entanto, aplicar GNNs ao DrugMatrix apresenta desafios devido à complexidade da estrutura dos dados.

As pesquisas futuras vão se concentrar em aplicar essas técnicas avançadas pra encontrar novos insights e melhorar previsões na toxicogenômica.

Validação e Caracterização Biológica

Pra garantir que os dados previstos produzem resultados confiáveis e significativos, os pesquisadores realizaram várias técnicas de validação. Eles examinaram padrões de conectividade pra ver como os dados previstos se alinham com os efeitos conhecidos em conjuntos de dados medidos. Comparando os resultados previstos com mecanismos biológicos estabelecidos, eles avaliaram a precisão das previsões.

Além disso, realizaram análises de via pra entender quais vias biológicas foram afetadas pelos produtos químicos de tratamento. Isso envolveu explorar listas de genes e determinar se havia consistência com vias conhecidas.

Identificando Biomarcadores Transcricionais

Os pesquisadores investigaram os dados previstos em busca de potenciais biomarcadores transcricionais. Esses marcadores indicam respostas biológicas específicas a toxinas, fornecendo insights sobre como diferentes tecidos são afetados.

Ao examinar as mudanças na expressão gênica, eles descobriram que algumas respostas previstas se alinharam bem com compostos tóxicos conhecidos. Isso deu confiança a eles de que o modelo preditivo capturou efetivamente os efeitos biológicos da exposição a substâncias nocivas.

O Papel do DrugMatrix Completo

O DrugMatrix Completo serve como uma plataforma online pra pesquisadores acessarem e analisarem os dados. Ele permite que os usuários busquem por tratamentos específicos, visualizem dados de expressão gênica e comparem resultados previstos e medidos.

Essa ferramenta ajuda a melhorar a experiência do usuário, proporcionando meios pra explorar os dados, tirar conclusões sobre potencial toxicidade e encontrar insights relevantes pra pesquisas futuras.

Conclusão e Direções Futuras

Entender a toxicidade é essencial pra saúde e segurança pública. O projeto DrugMatrix destaca a importância de integrar dados tradicionais de toxicidade com toxicogenômica pra fornecer uma visão abrangente de como as substâncias afetam os organismos.

Com o desenvolvimento do ToxiCompl, os pesquisadores mostraram que técnicas de IA e aprendizado de máquina podem preencher efetivamente as lacunas nos dados. Isso tem o potencial de melhorar estudos futuros de toxicologia sem precisar realizar mais testes em animais.

Conforme os pesquisadores continuam a explorar novos métodos, como redes neurais gráficas e outras técnicas avançadas, eles buscam descobrir mais insights sobre as complexas relações entre produtos químicos e sistemas biológicos.

Os esforços contínuos pra validar previsões e melhorar modelos usando várias fontes de dados não só vão aprimorar ainda mais o banco de dados do DrugMatrix, mas também podem levar a avanços significativos na compreensão dos efeitos biológicos de produtos químicos ao longo do tempo.

Fonte original

Título: Completion of the DrugMatrix Toxicogenomics Database using ToxCompl

Resumo: The DrugMatrix Database contains systematically generated toxicogenomics data from short-term in vivo studies for over 600 chemicals. However, most of the potential endpoints in the database are missing due to a lack of experimental measurements. We present our study on leveraging matrix factorization and machine learning methods to predict the missing values in the DrugMatrix, which includes gene expression across eight tissues on two expression platforms along with paired clinical chemistry, hematology, and histopathology measurements. One major challenge we encounter is the skewed distribution of the available measured data, in terms of both tissue sources and values. We propose a method, ToxiCompl, that applies systematic hybrid sampling guided by Bayesian optimization in conjunction with low-rank matrix factorization to recover the missing values. ToxiCompl achieves good training and validation performance from a machine learning perspective. We further conduct an in-depth validation of the predicted data from biological and toxicological perspectives with a series of analyses. These include examining the connectivity pattern of predicted gene expression responses, characterizing molecular pathway-level responses from sets of differentially expressed genes, evaluating known transcriptional biomarkers of tissue toxicity, and characterizing pre-dicted apical endpoints. Our analysis shows that the predicted differential gene expression, broadly speaking, aligns with what would be anticipated. For example, in most instances, our predicted differentially expressed gene lists offer a connectivity level comparable to that of measured data in connectivity analysis. Using Havcr1, a known transcriptional biomarker of kidney injury, we identify treatments that, based on the predicted expression data, manifest kidney toxicity in a manner that is mechanistically plausible and supported by the literature. Characterization of the predicted clinical chemistry data suggests that strong effects are relatively reliably predicted, while more subtle effects pose a greater challenge. In the case of histopathological prediction, we find a significant overprediction due to positivity bias in the measured data. Developing methods to deal with this bias is one of the areas we plan to target for future improvement. The main advantage of the ToxiCompl approach is that, in the absence of additional experimental data, it drastically extends the toxicogenomic landscape into a number of data-poor tissues, thereby allowing researchers to formulate mechanistic hypotheses about effects in tissues that have been underrepresented in the literature. All measured and predicted DrugMatrix data (i.e., gene expression, clinical chemistry, hematology, and histopathology) are available to the public through an intuitive GUI interface that allows for data retrieval, gene set analysis and high dimensional visualization of gene expression similarity (https://rstudio.niehs.nih.gov/complete_drugmatrix/).

Autores: Scott Sean Auerbach, G. Cong, R. M. Patton, F. Chao, D. L. Svoboda, W. M. Casey, C. P. Schmitt, C. Murphy, J. N. Erickson, P. Combs

Última atualização: 2024-04-03 00:00:00

Idioma: English

Fonte URL: https://www.biorxiv.org/content/10.1101/2024.03.26.586669

Fonte PDF: https://www.biorxiv.org/content/10.1101/2024.03.26.586669.full.pdf

Licença: https://creativecommons.org/publicdomain/zero/1.0/

Alterações: Este resumo foi elaborado com a assistência da AI e pode conter imprecisões. Para obter informações exactas, consulte os documentos originais ligados aqui.

Obrigado ao biorxiv pela utilização da sua interoperabilidade de acesso aberto.

Mais de autores

Artigos semelhantes