Simple Science

La science de pointe expliquée simplement

# Biologie# Génomique

Avancées dans l'évaluation de la toxicité avec l'IA

Les outils d'IA améliorent les prédictions de données sur la toxicité pour la santé publique.

― 12 min lire


IA dans l'évaluation deIA dans l'évaluation dela toxicitéprévisions de données de toxicité.L'IA comble les lacunes dans les
Table des matières

L'évaluation de la Toxicité, c'est le processus qui consiste à tester comment des substances, comme des produits chimiques ou des médicaments, affectent les organismes vivants. Comprendre la toxicité est super important pour garantir la santé et la sécurité publiques. Au fil des ans, les scientifiques ont développé plusieurs méthodes pour évaluer la toxicité, des tests en laboratoire traditionnels à des techniques plus récentes utilisant des technologies avancées comme la toxico-génomique.

Le défi des données limitées

Un gros obstacle dans le développement de nouvelles méthodes d’évaluation de la toxicité, c’est la disponibilité limitée des données. Ça veut dire qu’il n’y a pas assez de résultats ou de découvertes pour comprendre comment différentes substances impactent différentes parties du corps. Sans données adéquates, c'est compliqué pour les chercheurs de faire des évaluations précises.

C'est là que le projet DrugMatrix entre en jeu. DrugMatrix sert de ressource intégrée de données qui combine des données historiques sur des points de toxicité traditionnels avec des données de nouvelles approches. Il collecte des infos provenant d'études qui examinent à la fois les effets des produits chimiques sur divers organes et comment les gènes réagissent à ces substances.

Qu'est-ce que DrugMatrix ?

DrugMatrix, c'est une base de données importante qui inclut des informations d'études réalisées sur des rats pour comprendre comment différents produits chimiques affectent leur santé. Elle couvre plus de 600 substances différentes et inclut des données de divers tissus comme le foie, les reins, le cœur et le cerveau. L'objectif est de fournir une vue complète de l'impact des produits chimiques sur différents systèmes biologiques.

La base de données utilise deux technologies différentes pour analyser l'expression génique : la plateforme CodeLink et la plateforme Affymetrix. Tandis que la plateforme CodeLink offre une plus grande variété de tissus analysés, la plateforme Affymetrix est encore largement utilisée aujourd'hui. La plupart des études dans DrugMatrix combinent des données d'expression génique avec des mesures de pathologie clinique standard, donnant ainsi une image complète des effets de la toxicité.

Malgré la richesse des données dans DrugMatrix, environ 88 % des points finaux potentiels manquent toujours. Ça veut dire qu'il y a beaucoup de lacunes dans les informations qu'on a actuellement, surtout concernant les tissus qui ne montrent pas de dommages visibles à cause de l'exposition chimique.

Utiliser l'Intelligence Artificielle pour combler les lacunes de données

Pour s'attaquer au problème des données manquantes, les chercheurs appliquent maintenant des techniques d'intelligence artificielle (IA) et d'apprentissage automatique. Ces méthodes peuvent aider à estimer ou prédire les points finaux manquants en se basant sur les informations existantes dans DrugMatrix.

Une approche innovante utilise des techniques comme L1000 et S1500+, qui peuvent extrapoler des données à partir d'un nombre limité de gènes pour créer un profil d'expression génique plus complet. C'est un peu comme utiliser des informations partielles pour deviner le portrait complet du patrimoine génétique d'une personne.

Plus récemment, des méthodes d'IA avancées, comme les Réseaux Antagonistes Génératifs (GANs), ont émergé. Ces méthodes peuvent analyser plusieurs facteurs, comme le type de produit chimique, l'organe touché et la dose, pour prédire l'expression génique à travers l'ensemble du génome.

S'attaquer au problème des signaux rares

Bien que ces techniques d'IA puissent améliorer les prédictions, un problème persistant reste : la perte de signaux rares mais importants pendant la complétion des données. Beaucoup de signaux critiques dans les données de toxicité sont rares, ce qui les rend difficiles à prédire avec précision. Par exemple, des valeurs positives dans l'expression génique indiquent une surexpression, tandis que des valeurs négatives suggèrent une sous-expression.

Les catégories rares, qui pourraient porter des informations essentielles sur les effets chimiques, sont souvent négligées. Pour améliorer les prédictions pour ces catégories rares, les chercheurs utilisent des techniques d'échantillonnage hybride. Ces techniques accordent plus d'importance à la prédiction des catégories rares, permettant au modèle d'apprendre mieux et d'obtenir des résultats plus précis.

L'approche ToxiCompl

Les chercheurs ont développé une méthode appelée ToxiCompl pour mieux prédire les données de toxicité manquantes dans DrugMatrix. ToxiCompl incorpore des méthodologies d'échantillonnage hybride, permettant au modèle de se concentrer sur des signaux importants mais rares tout en maintenant l’exactitude globale.

La méthode commence par s'assurer que les données existantes sont suffisantes pour faire des prédictions précises. Elle utilise ensuite des techniques de complétion de matrices pour combler les lacunes. L'objectif est de créer un ensemble de données complet qui peut être plus utile pour de futures études de toxicologie sans avoir besoin de réaliser d'autres tests sur des animaux.

Validation des prédictions de ToxiCompl

Pour s'assurer que les prédictions faites par ToxiCompl sont précises, les chercheurs utilisent deux méthodes standard de validation. La première méthode consiste à retenir une petite portion des données existantes pour tester comment les prédictions correspondent aux valeurs réelles. La seconde méthode inclut l'examen des données prédites d'un point de vue biologique, en cherchant des schémas et des relations entre les expressions géniques.

Dans leur étude, ToxiCompl a obtenu des résultats impressionnants. Il a montré un faible taux d'erreur dans la prédiction des niveaux d'expression génique et une grande précision pour identifier des catégories pertinentes. Les chercheurs ont également validé les prédictions de ToxiCompl par rapport à des marqueurs toxicologiques connus, menant à une meilleure compréhension de la manière dont les toxines affectent différents tissus.

La structure des données dans DrugMatrix

En organisant les données de DrugMatrix dans un format structuré, les chercheurs ont découvert qu'il y avait environ 193 000 lignes et 3 000 colonnes. Chaque ligne représente un groupe de traitement individuel, qui inclut des informations sur le produit chimique, la dose et la durée de l'exposition. Les colonnes, quant à elles, représentent différents types de mesures, comme l'expression génique, la chimie clinique et l'histopathologie.

Il existe plusieurs catégories de données, y compris l'histopathologie, la chimie clinique et l'hématologie. Par exemple, dans la catégorie d'expression génique, les données sont présentées comme des ratios d'échantillons traités par rapport à des échantillons témoins. Cependant, les données sont inégalement réparties, avec un accent significatif sur le foie et les reins, par rapport à d'autres tissus.

Techniques de complétion de matrices

Les chercheurs utilisent des techniques de complétion de matrices pour reconstruire les parties manquantes du jeu de données DrugMatrix. Ils pensent que la plupart de la matrice peut être complétée avec succès parce qu'on suppose qu'elle est de faible rang. Cela signifie qu'il y a des schémas et des connexions sous-jacentes dans les données que les méthodes de complétion de matrices peuvent extraire.

Pour ce faire, ils utilisent des techniques comme Funk-SVD, qui factorise la matrice en deux matrices distinctes qui peuvent être apprises à partir des entrées observées. Cette approche leur permet de prédire les entrées manquantes en fonction des relations entre les lignes et les colonnes de la matrice originale.

Améliorer les prédictions en se concentrant sur les catégories rares

Étant donné que de nombreux signaux essentiels dans les données sont rares, les chercheurs visent à améliorer leurs prédictions pour ces catégories. Appliquer simplement des techniques de complétion de matrices standard aboutit souvent à un échec pour capturer des signaux importants mais peu fréquents.

Pour s'attaquer à ce problème, ils explorent des techniques de sur-échantillonnage et sous-échantillonnage. Le sur-échantillonnage signifie dupliquer des points de données dans des catégories moins courantes pour obtenir un ensemble de données plus équilibré. Le sous-échantillonnage, en revanche, consiste à enlever aléatoirement des points des catégories plus courantes.

À travers des expériences, ils ont constaté que les deux approches amélioraient la prédiction des signaux rares dans le jeu de données. En utilisant un échantillonnage hybride, ils ont combiné les deux méthodes pour améliorer la performance globale tout en maintenant l’exactitude du modèle.

Utiliser l'optimisation bayésienne pour un échantillonnage optimal

Au lieu de choisir manuellement des distributions d'échantillonnage, les chercheurs se sont tournés vers l'optimisation bayésienne. Cette technique aide à trouver la meilleure distribution d'échantillonnage qui maximise le score F1 moyen, un indicateur important pour évaluer la performance du modèle.

Grâce à des tests initiaux avec différentes distributions, ils ont identifié une distribution qui a significativement amélioré la performance. Cette méthode a non seulement augmenté l'exactitude prédictive, mais a également veillé à ce que le modèle maintienne un équilibre entre la prédiction de catégories rares et la performance globale de la méthode de complétion de matrices.

Prédire les données continues de DrugMatrix

Après avoir amélioré la performance de la méthode ToxiCompl en utilisant des données catégorielles, les chercheurs ont exploré l'utilisation de données continues dans DrugMatrix. Cela impliquait de combiner à la fois des valeurs catégorielles et continues, leur permettant de conserver autant d'informations que possible.

En s'appuyant sur les idées recueillies à partir des données catégorielles, le modèle mis à jour a maintenu sa performance prédictive et a rempli avec précision les lacunes restantes dans le jeu de données continu.

Approches alternatives pour la prédiction des données

Outre l'utilisation de ToxiCompl, les chercheurs ont également exploré des méthodes alternatives pour prédire les données manquantes dans DrugMatrix. Par exemple, ils ont expérimenté avec des forêts aléatoires, qui utilisent des arbres décisionnels pour faire des prédictions basées sur les entrées. Cependant, ces méthodes n'ont pas égalé la performance de ToxiCompl.

Ils ont également examiné l'utilisation de réseaux neuronaux profonds, qui sont constitués de plusieurs couches connectées pour traiter les données. Bien que ces méthodes aient mieux fonctionné que les forêts aléatoires, elles ont encore échoué par rapport à ToxiCompl.

Réseaux de neurones graphiques pour la toxico-génomique

Une autre avenue que les chercheurs ont envisagée est l'utilisation de Réseaux de Neurones Graphiques (GNNs). Les GNNs peuvent modéliser des relations complexes entre divers éléments dans les données, ce qui en fait un outil puissant pour traiter les jeux de données de toxicité. Cependant, l'application des GNNs à DrugMatrix pose des défis en raison de la complexité de la structure des données.

Les recherches futures se concentreront sur l'application de ces techniques avancées pour trouver de nouvelles informations et améliorer les prédictions en toxico-génomique.

Validation et caractérisation biologique

Pour s'assurer que les données prédites produisent des résultats fiables et significatifs, les chercheurs ont mené diverses techniques de validation. Ils ont examiné les schémas de connectivité pour voir comment les données prédites s'alignent avec les effets connus dans les jeux de données mesurés. En comparant les résultats prévus aux mécanismes biologiques établis, ils ont évalué l'exactitude des prédictions.

De plus, ils ont effectué une analyse de chemin pour comprendre quels voies biologiques étaient affectées par les produits chimiques traitants. Cela impliquait d'explorer des listes de gènes et de déterminer s'il y avait une cohérence avec des voies connues.

Identification des biomarqueurs transcriptionnels

Les chercheurs ont examiné les données prédites pour des biomarqueurs transcriptionnels potentiels. Ces marqueurs indiquent des réponses biologiques spécifiques aux toxines, fournissant des infos sur la manière dont différents tissus sont affectés.

En examinant les changements d'expression génique, ils ont trouvé certaines réponses prédites qui s'alignaient bien avec des composés toxiques connus. Ça leur a donné confiance que le modèle prédictif capturait efficacement les effets biologiques de l'exposition à des substances nocives.

Le rôle de Complete DrugMatrix

Le Complete DrugMatrix sert de plateforme en ligne pour que les chercheurs accèdent et analysent les données. Ça permet aux utilisateurs de rechercher des traitements spécifiques, de visualiser des données d'expression génique et de comparer les résultats prédites et mesurés.

Cet outil aide à améliorer l'expérience utilisateur, fournissant un moyen d'explorer les données, de tirer des conclusions sur la toxicité potentielle et de trouver des informations pertinentes pour des recherches futures.

Conclusion et directions futures

Comprendre la toxicité est essentiel pour la santé et la sécurité publiques. Le projet DrugMatrix met en avant l'importance de l'intégration des données de toxicité traditionnelles avec la toxico-génomique pour fournir une vue complète de la manière dont les substances affectent les organismes.

À travers le développement de ToxiCompl, les chercheurs ont montré que les techniques d'IA et d'apprentissage automatique peuvent efficacement combler les lacunes dans les données. Ça a le potentiel d'améliorer de futures études de toxicologie sans avoir besoin de réaliser d'autres tests sur des animaux.

Alors que les chercheurs continuent d'explorer de nouvelles méthodes, comme les réseaux neuronaux graphiques et d'autres techniques avancées, ils visent à découvrir plus d'informations sur les relations complexes entre les produits chimiques et les systèmes biologiques.

Les efforts continus pour valider les prédictions et améliorer les modèles en utilisant diverses sources de données ne vont pas seulement renforcer la base de données DrugMatrix, mais pourraient aussi conduire à des avancées significatives dans la compréhension des effets biologiques des produits chimiques au fil du temps.

Source originale

Titre: Completion of the DrugMatrix Toxicogenomics Database using ToxCompl

Résumé: The DrugMatrix Database contains systematically generated toxicogenomics data from short-term in vivo studies for over 600 chemicals. However, most of the potential endpoints in the database are missing due to a lack of experimental measurements. We present our study on leveraging matrix factorization and machine learning methods to predict the missing values in the DrugMatrix, which includes gene expression across eight tissues on two expression platforms along with paired clinical chemistry, hematology, and histopathology measurements. One major challenge we encounter is the skewed distribution of the available measured data, in terms of both tissue sources and values. We propose a method, ToxiCompl, that applies systematic hybrid sampling guided by Bayesian optimization in conjunction with low-rank matrix factorization to recover the missing values. ToxiCompl achieves good training and validation performance from a machine learning perspective. We further conduct an in-depth validation of the predicted data from biological and toxicological perspectives with a series of analyses. These include examining the connectivity pattern of predicted gene expression responses, characterizing molecular pathway-level responses from sets of differentially expressed genes, evaluating known transcriptional biomarkers of tissue toxicity, and characterizing pre-dicted apical endpoints. Our analysis shows that the predicted differential gene expression, broadly speaking, aligns with what would be anticipated. For example, in most instances, our predicted differentially expressed gene lists offer a connectivity level comparable to that of measured data in connectivity analysis. Using Havcr1, a known transcriptional biomarker of kidney injury, we identify treatments that, based on the predicted expression data, manifest kidney toxicity in a manner that is mechanistically plausible and supported by the literature. Characterization of the predicted clinical chemistry data suggests that strong effects are relatively reliably predicted, while more subtle effects pose a greater challenge. In the case of histopathological prediction, we find a significant overprediction due to positivity bias in the measured data. Developing methods to deal with this bias is one of the areas we plan to target for future improvement. The main advantage of the ToxiCompl approach is that, in the absence of additional experimental data, it drastically extends the toxicogenomic landscape into a number of data-poor tissues, thereby allowing researchers to formulate mechanistic hypotheses about effects in tissues that have been underrepresented in the literature. All measured and predicted DrugMatrix data (i.e., gene expression, clinical chemistry, hematology, and histopathology) are available to the public through an intuitive GUI interface that allows for data retrieval, gene set analysis and high dimensional visualization of gene expression similarity (https://rstudio.niehs.nih.gov/complete_drugmatrix/).

Auteurs: Scott Sean Auerbach, G. Cong, R. M. Patton, F. Chao, D. L. Svoboda, W. M. Casey, C. P. Schmitt, C. Murphy, J. N. Erickson, P. Combs

Dernière mise à jour: 2024-04-03 00:00:00

Langue: English

Source URL: https://www.biorxiv.org/content/10.1101/2024.03.26.586669

Source PDF: https://www.biorxiv.org/content/10.1101/2024.03.26.586669.full.pdf

Licence: https://creativecommons.org/publicdomain/zero/1.0/

Changements: Ce résumé a été créé avec l'aide de l'IA et peut contenir des inexactitudes. Pour obtenir des informations précises, veuillez vous référer aux documents sources originaux dont les liens figurent ici.

Merci à biorxiv pour l'utilisation de son interopérabilité en libre accès.

Plus d'auteurs

Articles similaires