Simple Science

Ciencia de vanguardia explicada de forma sencilla

# Biología# Genómica

Avances en la Evaluación de Toxicidad Usando IA

Las herramientas de IA mejoran las predicciones de datos de toxicidad para la salud pública.

― 11 minilectura


IA en Evaluación deIA en Evaluación deToxicidadpredicciones de datos de toxicidad.La IA llena los vacíos en las
Tabla de contenidos

La evaluación de Toxicidad es el proceso de probar cómo las sustancias, como químicos o medicamentos, afectan a los organismos vivos. Entender la toxicidad es clave para asegurar la salud y la seguridad pública. A lo largo de los años, los científicos han creado varios métodos para evaluar la toxicidad, desde pruebas de laboratorio tradicionales hasta técnicas más nuevas que utilizan tecnologías avanzadas como la toxicogenómica.

El Desafío de los Datos Limitados

Un gran obstáculo en el desarrollo de nuevos métodos de evaluación de toxicidad es la disponibilidad limitada de datos. Esto significa que no hay suficientes resultados o hallazgos para ayudar a entender cómo diferentes sustancias afectan diferentes partes del cuerpo. Sin datos adecuados, es complicado para los investigadores hacer evaluaciones precisas.

Aquí es donde entra el proyecto DrugMatrix. DrugMatrix sirve como un recurso de datos integrado que combina datos históricos sobre puntos finales de toxicidad tradicionales con datos de enfoques más nuevos. Reúne información de estudios que analizan tanto los efectos de los químicos en varios órganos como cómo los genes responden a estos químicos.

¿Qué es DrugMatrix?

DrugMatrix es una base de datos importante que incluye información de estudios realizados en ratas para entender cómo diferentes químicos afectan su salud. Cubre más de 600 químicos diferentes e incluye datos de varios tejidos como el hígado, los riñones, el corazón y el cerebro. El objetivo es proporcionar una visión completa de cómo los químicos impactan diferentes sistemas biológicos.

La base de datos utiliza dos tecnologías diferentes para analizar la Expresión Génica: la plataforma CodeLink y la plataforma Affymetrix. Mientras que la plataforma CodeLink ofrece un rango más amplio de tejidos analizados, la plataforma Affymetrix todavía se usa mucho hoy en día. La mayoría de los estudios en DrugMatrix combinan datos de expresión génica con mediciones patológicas clínicas estándar, proporcionando una imagen completa de los efectos de toxicidad.

A pesar de la riqueza de datos en DrugMatrix, alrededor del 88% de los posibles puntos finales todavía están ausentes. Esto significa que hay muchos vacíos en la información que tenemos actualmente, especialmente en tejidos que no muestran daño visible por exposición química.

Usando Inteligencia Artificial para Llenar Vacíos de Datos

Para abordar el problema de los datos faltantes, los investigadores están aplicando ahora técnicas de inteligencia artificial (IA) y aprendizaje automático. Estos métodos pueden ayudar a estimar o predecir los puntos finales que faltan basándose en la información existente en DrugMatrix.

Un enfoque innovador implica el uso de técnicas como L1000 y S1500+, que pueden extrapolar datos de un número limitado de genes para crear un perfil más completo de expresión génica. Esto es similar a usar información parcial para inferir una imagen completa del perfil genético de una persona.

Más recientemente, han surgido métodos avanzados de IA, como las Redes Generativas Antagónicas (GANs). Estos métodos pueden analizar múltiples factores, como el tipo de químico, el órgano afectado y la dosis, para predecir la expresión génica en todo el genoma.

Abordando el Problema de las Señales Raras

Mientras que estas técnicas de IA pueden mejorar las predicciones, un problema persistente sigue siendo: la pérdida de señales raras pero importantes durante la completación de datos. Muchas señales críticas en los datos de toxicidad son raras, lo que dificulta predecirlas con precisión. Por ejemplo, los valores positivos en la expresión génica indican sobrerregulación, mientras que los valores negativos sugieren subregulación.

Las categorías raras, que podrían contener información esencial sobre los efectos químicos, a menudo se pasan por alto. Para mejorar las predicciones de estas categorías raras, los investigadores están utilizando técnicas de muestreo híbrido. Estas técnicas dan más importancia a la predicción de categorías raras, permitiendo al modelo aprender mejor y obtener resultados más precisos.

El Enfoque ToxiCompl

Los investigadores desarrollaron un método llamado ToxiCompl para predecir mejor los datos de toxicidad faltantes en DrugMatrix. ToxiCompl incorpora metodologías de muestreo híbrido, permitiendo al modelo enfocarse en señales importantes pero raras, mientras mantiene la precisión general.

El método comienza asegurando que los datos existentes sean suficientes para hacer predicciones precisas. Luego utiliza técnicas de completación de matrices para llenar los vacíos. El objetivo es crear un conjunto de datos completo que pueda ser más útil para futuros estudios de toxicología sin necesidad de realizar pruebas adicionales en animales.

Validando las Predicciones de ToxiCompl

Para asegurar que las predicciones hechas por ToxiCompl son precisas, los investigadores utilizan dos métodos estándar para la validación. El primer método implica retener una pequeña parte de los datos existentes para probar qué tan bien las predicciones coinciden con los valores reales. El segundo método incluye examinar los datos predichos desde una perspectiva biológica, buscando patrones y relaciones entre las expresiones génicas.

En su estudio, ToxiCompl logró resultados impresionantes. Mostró una baja tasa de error en la predicción de los niveles de expresión génica y alta precisión para identificar categorías relevantes. Los investigadores también validaron las predicciones de ToxiCompl en relación con marcadores toxicológicos conocidos, lo que llevó a una mejor comprensión de cómo los tóxicos afectan diferentes tejidos.

La Estructura de los Datos en DrugMatrix

Al organizar los datos de DrugMatrix en un formato estructurado, los investigadores encontraron que hay alrededor de 193,000 filas y 3,000 columnas. Cada fila representa un grupo de tratamiento individual, que incluye información sobre el químico, la dosis y la duración de la exposición. Las columnas, por otro lado, representan diferentes tipos de mediciones, como expresión génica, química clínica e histopatología.

Hay varias categorías de datos, que incluyen histopatología, química clínica y hematología. Por ejemplo, en la categoría de expresión génica, los datos se presentan como ratios de muestras tratadas en comparación con muestras de control. Sin embargo, los datos están distribuidos de manera desigual, con un enfoque significativo en el hígado y los riñones, en comparación con otros tejidos.

Técnicas de Completación de Matrices

Los investigadores utilizan técnicas de completación de matrices para reconstruir las partes faltantes del conjunto de datos de DrugMatrix. Creen que la mayor parte de la matriz se puede completar con éxito porque se asume que tiene un rango bajo. Esto significa que hay patrones y conexiones subyacentes en los datos que los métodos de completación de matrices pueden extraer.

Para hacer esto, utilizan técnicas como Funk-SVD, que factoriza la matriz en dos matrices separadas que se pueden aprender de las entradas observadas. Este enfoque les permite predecir entradas que faltan basándose en las relaciones entre las filas y columnas en la matriz original.

Mejorando las Predicciones Focalizándose en Categorías Raras

Dado que muchas señales esenciales en los datos son raras, los investigadores buscan mejorar sus predicciones para estas categorías. Aplicar simplemente técnicas de completación de matrices estándar a menudo resulta en no capturar señales importantes pero poco frecuentes.

Para abordar este problema, exploran técnicas de sobrerrepresentación y subrepresentación. La sobrerrepresentación significa duplicar puntos de datos en categorías menos comunes para lograr un conjunto de datos más equilibrado. La subrepresentación, por otro lado, implica eliminar aleatoriamente puntos de las categorías más comunes.

A través de experimentos, encontraron que ambos enfoques mejoraron la predicción de señales raras en el conjunto de datos. Al usar muestreo híbrido, combinaron ambos métodos para mejorar el rendimiento general mientras mantenían la precisión del modelo.

Usando Optimización Bayesiana para Muestreo Óptimo

En lugar de elegir manualmente las distribuciones de muestreo, los investigadores recurrieron a la optimización bayesiana. Esta técnica ayuda a encontrar la mejor distribución de muestreo que maximiza la puntuación media F1, una métrica importante para evaluar el rendimiento del modelo.

A través de pruebas iniciales con varias distribuciones, identificaron una distribución que mejoró significativamente el rendimiento. Este método no solo incrementó la precisión predictiva, sino que también aseguró que el modelo mantuviera un equilibrio entre predecir categorías raras y el rendimiento general del método de completación de matrices.

Prediciendo Datos Continuos de DrugMatrix

Después de mejorar el rendimiento del método ToxiCompl usando datos categóricos, los investigadores exploraron el uso de datos continuos en DrugMatrix. Esto implicaba combinar valores categóricos y continuos, permitiendo retener la mayor cantidad de información posible.

Al aprovechar los conocimientos obtenidos de los datos categóricos, el modelo actualizado mantuvo su rendimiento predictivo y llenó de manera precisa los vacíos restantes en el conjunto de datos continuo.

Enfoques Alternativos para la Predicción de Datos

Además de usar ToxiCompl, los investigadores también exploraron métodos alternativos para predecir datos faltantes en DrugMatrix. Por ejemplo, experimentaron con bosques aleatorios, que implican usar árboles de decisión para hacer predicciones basadas en las entradas. Sin embargo, estos métodos no igualaron el rendimiento de ToxiCompl.

También investigaron el uso de redes neuronales profundas, que constan de múltiples capas conectadas para procesar datos. Aunque estos métodos tuvieron un mejor rendimiento que los bosques aleatorios, aún no alcanzaron a ToxiCompl.

Redes Neuronales de Grafos para Toxicogenómica

Otra vía que consideraron los investigadores fue usar Redes Neuronales de Grafos (GNNs). Las GNNs pueden modelar relaciones complejas entre varios elementos en los datos, lo que las convierte en una herramienta poderosa para manejar conjuntos de datos de toxicidad. Sin embargo, aplicar GNNs a DrugMatrix presenta desafíos debido a la complejidad de la estructura de los datos.

La investigación futura se centrará en aplicar estas técnicas avanzadas para encontrar nuevos insights y mejorar predicciones en toxicogenómica.

Validación y Caracterización Biológica

Para asegurar que los datos predichos produzcan resultados fiables y significativos, los investigadores realizaron diversas técnicas de validación. Examinaron patrones de conectividad para ver cómo los datos predichos se alinean con los efectos conocidos en conjuntos de datos medidos. Comparando los resultados predichos con mecanismos biológicos establecidos, evaluaron la precisión de las predicciones.

Además, realizaron un análisis de rutas para entender qué rutas biológicas se vieron afectadas por los químicos de tratamiento. Esto implicaba explorar listas de genes y determinar si había consistencia con rutas conocidas.

Identificando Biomarcadores Transcripcionales

Los investigadores examinaron los datos predichos en busca de posibles biomarcadores transcripcionales. Estos marcadores indican respuestas biológicas específicas a los tóxicos, proporcionando información sobre cómo se ven afectados diferentes tejidos.

Al examinar los cambios en la expresión génica, encontraron que algunas respuestas predichas se alineaban bien con compuestos tóxicos conocidos. Esto les dio confianza en que el modelo predictivo capturaba efectivamente los efectos biológicos de la exposición a sustancias dañinas.

El Papel de Complete DrugMatrix

El Complete DrugMatrix sirve como una plataforma en línea para que los investigadores accedan y analicen los datos. Permite a los usuarios buscar tratamientos específicos, visualizar datos de expresión génica y comparar resultados predichos y medidos.

Esta herramienta ayuda a mejorar la experiencia del usuario, proporcionando un medio para explorar los datos, sacar conclusiones sobre la toxicidad potencial y encontrar insights relevantes para futuras investigaciones.

Conclusión y Direcciones Futuras

Entender la toxicidad es esencial para la salud pública y la seguridad. El proyecto DrugMatrix destaca la importancia de integrar datos tradicionales de toxicidad con la toxicogenómica para proporcionar una visión completa de cómo las sustancias afectan a los organismos.

A través del desarrollo de ToxiCompl, los investigadores han demostrado que las técnicas de IA y aprendizaje automático pueden llenar efectivamente los vacíos en los datos. Esto tiene el potencial de mejorar futuros estudios de toxicología sin necesidad de realizar pruebas adicionales en animales.

A medida que los investigadores continúan explorando nuevos métodos, como redes neuronales de grafos y otras técnicas avanzadas, buscan descubrir más insights sobre las relaciones complejas entre los químicos y los sistemas biológicos.

Los esfuerzos continuos para validar predicciones y mejorar modelos utilizando diversas fuentes de datos no solo mejorarán aún más la base de datos DrugMatrix, sino que también podrían conducir a avances significativos en la comprensión de los efectos biológicos de los químicos a lo largo del tiempo.

Fuente original

Título: Completion of the DrugMatrix Toxicogenomics Database using ToxCompl

Resumen: The DrugMatrix Database contains systematically generated toxicogenomics data from short-term in vivo studies for over 600 chemicals. However, most of the potential endpoints in the database are missing due to a lack of experimental measurements. We present our study on leveraging matrix factorization and machine learning methods to predict the missing values in the DrugMatrix, which includes gene expression across eight tissues on two expression platforms along with paired clinical chemistry, hematology, and histopathology measurements. One major challenge we encounter is the skewed distribution of the available measured data, in terms of both tissue sources and values. We propose a method, ToxiCompl, that applies systematic hybrid sampling guided by Bayesian optimization in conjunction with low-rank matrix factorization to recover the missing values. ToxiCompl achieves good training and validation performance from a machine learning perspective. We further conduct an in-depth validation of the predicted data from biological and toxicological perspectives with a series of analyses. These include examining the connectivity pattern of predicted gene expression responses, characterizing molecular pathway-level responses from sets of differentially expressed genes, evaluating known transcriptional biomarkers of tissue toxicity, and characterizing pre-dicted apical endpoints. Our analysis shows that the predicted differential gene expression, broadly speaking, aligns with what would be anticipated. For example, in most instances, our predicted differentially expressed gene lists offer a connectivity level comparable to that of measured data in connectivity analysis. Using Havcr1, a known transcriptional biomarker of kidney injury, we identify treatments that, based on the predicted expression data, manifest kidney toxicity in a manner that is mechanistically plausible and supported by the literature. Characterization of the predicted clinical chemistry data suggests that strong effects are relatively reliably predicted, while more subtle effects pose a greater challenge. In the case of histopathological prediction, we find a significant overprediction due to positivity bias in the measured data. Developing methods to deal with this bias is one of the areas we plan to target for future improvement. The main advantage of the ToxiCompl approach is that, in the absence of additional experimental data, it drastically extends the toxicogenomic landscape into a number of data-poor tissues, thereby allowing researchers to formulate mechanistic hypotheses about effects in tissues that have been underrepresented in the literature. All measured and predicted DrugMatrix data (i.e., gene expression, clinical chemistry, hematology, and histopathology) are available to the public through an intuitive GUI interface that allows for data retrieval, gene set analysis and high dimensional visualization of gene expression similarity (https://rstudio.niehs.nih.gov/complete_drugmatrix/).

Autores: Scott Sean Auerbach, G. Cong, R. M. Patton, F. Chao, D. L. Svoboda, W. M. Casey, C. P. Schmitt, C. Murphy, J. N. Erickson, P. Combs

Última actualización: 2024-04-03 00:00:00

Idioma: English

Fuente URL: https://www.biorxiv.org/content/10.1101/2024.03.26.586669

Fuente PDF: https://www.biorxiv.org/content/10.1101/2024.03.26.586669.full.pdf

Licencia: https://creativecommons.org/publicdomain/zero/1.0/

Cambios: Este resumen se ha elaborado con la ayuda de AI y puede contener imprecisiones. Para obtener información precisa, consulte los documentos originales enlazados aquí.

Gracias a biorxiv por el uso de su interoperabilidad de acceso abierto.

Más de autores

Artículos similares