Améliorer la recherche génomique grâce à l'augmentation phylogénétique
Les scientifiques utilisent des séquences homologues pour améliorer les modèles de deep learning en génomique.
― 8 min lire
Table des matières
- Le Rôle du Deep Learning en Génomique
- Défis de la Disponibilité des Données
- Techniques d'Augmentation de données
- Le Pouvoir des Séquences Homologues
- Comment Fonctionne l'Augmentation Phylogénétique
- Bénéfices de l'Augmentation Phylogénétique
- Applications Réelles
- Explorer l'Impact des Hyperparamètres
- Conclusion
- Source originale
Dans le monde de la génétique, comprendre comment les gènes se comportent dans différentes situations est super important. Les scientifiques s'intéressent surtout à comment certaines régions de l'ADN, appelées séquences régulatrices, influencent les gènes. Ces séquences régulatrices disent aux gènes quand s'allumer ou s'éteindre, combien de protéines fabriquer, et plein d'autres tâches importantes.
Le deep learning, un type d'intelligence artificielle, aide les scientifiques à faire des prédictions sur ces comportements génétiques. En entraînant des modèles informatiques sur d'énormes quantités de données, les chercheurs peuvent analyser des aspects de l'ADN qui étaient auparavant difficiles à étudier.
Le Rôle du Deep Learning en Génomique
Les modèles de deep learning sont devenus très utiles pour prédire comment les séquences d'ADN vont se comporter. Ils peuvent prévoir des trucs comme l'accessibilité de certaines parties de l'ADN, où des protéines appelées facteurs de transcription vont se fixer, et comment les amplificateurs fonctionnent. Ces prédictions sont évaluées à l'aide d'ensembles de tests, qui sont séparés des données utilisées pour entraîner les modèles. Cette séparation garantit que les modèles apprennent vraiment et ne se contentent pas de mémoriser les données d'entraînement.
Encore plus important, quand ces modèles de deep learning détectent des schémas biologiques dans les données, ils peuvent approfondir notre compréhension des processus biologiques. Des études ont montré que ces modèles peuvent identifier des schémas familiers et nouveaux dans les séquences d'ADN, menant à des aperçus précieux.
Défis de la Disponibilité des Données
Cependant, construire des modèles de deep learning efficaces nécessite beaucoup de données. Pour de nombreux organismes, surtout ceux moins étudiés, il n'y a tout simplement pas assez d'infos disponibles. La plupart des données détaillées proviennent d'espèces bien connues comme les humains ou les souris. Ça pose un problème : comment les scientifiques peuvent créer des modèles complexes quand ils ont des données limitées ?
Une solution proposée consiste à générer des données artificielles en testant des séquences d'ADN aléatoires en laboratoire et en les évaluant par rapport à de vraies séquences génomiques. L'idée, c'est que les séquences d'ADN naturelles n'ont pas assez de variation pour apprendre aux modèles tout ce qu'ils doivent savoir.
Techniques d'Augmentation de données
Pour augmenter la quantité de données d'entraînement, les scientifiques utilisent souvent une technique appelée augmentation de données. Ce processus consiste à créer des copies modifiées des données existantes. Par exemple, dans le traitement d'images, les chercheurs peuvent retourner, faire pivoter ou changer la couleur des images pour créer de nouvelles versions sans avoir besoin de nouvelles images.
En génomique, il y a moins de méthodes d'augmentation sur mesure disponibles. Les scientifiques utilisent fréquemment des techniques comme créer des compléments inversés de séquences ou décaler des séquences le long du brin d'ADN. Récemment, des méthodes qui imitent l’évolution, comme introduire des changements aléatoires dans les séquences d'ADN, ont montré un potentiel pour améliorer les performances des modèles.
Le Pouvoir des Séquences Homologues
Les séquences homologues sont des séquences d'ADN provenant d'espèces différentes mais partageant un ancêtre commun. Elles peuvent avoir l'air différentes mais remplissent souvent des rôles biologiques similaires. Comme ces séquences peuvent fournir des infos précieuses sur la fonction et l’évolution, les chercheurs commencent à les considérer comme un moyen d’augmenter les ensembles de données d'entraînement.
En incorporant des séquences homologues d'espèces apparentées, les scientifiques peuvent augmenter la diversité des données d'entraînement, ce qui pourrait mener à de meilleures performances des modèles. Cette méthode a prouvé son efficacité dans divers scénarios biologiques.
Comment Fonctionne l'Augmentation Phylogénétique
L'augmentation phylogénétique signifie transformer une séquence d'ADN d'une espèce en un homologue d'une autre espèce. Cette technique utilise des alignements de génomes multi-espèces pour enrichir les données d'entraînement. En incluant des homologues comme versions augmentées des séquences d'entraînement, les modèles sont exposés à une gamme plus large de séquences.
L'application de cette méthode implique trois étapes principales. D'abord, les chercheurs utilisent des alignements de génomes multi-espèces pour identifier les séquences homologues pour chaque séquence d'ADN dans leur ensemble d'entraînement. Ensuite, ils appliquent l'augmentation phylogénétique à ces séquences pendant le processus d'entraînement du modèle. Enfin, après l'entraînement, les modèles sont ajustés sur les séquences originales pour améliorer la précision et réduire le biais.
Bénéfices de l'Augmentation Phylogénétique
Les premières expériences utilisant l'augmentation phylogénétique ont montré des résultats prometteurs. Par exemple, quand ils ont entraîné des modèles pour prédire des activités spécifiques dans le genre Drosophila, les chercheurs ont découvert que les modèles utilisant l'augmentation phylogénétique fonctionnaient mieux que ceux qui ne l'utilisaient pas. Dans un cas, la performance du modèle a considérablement augmenté lorsque des homologues d'espèces étroitement apparentées ont été inclus.
De plus, l'augmentation phylogénétique peut aider quand on travaille avec des ensembles de données plus petits. Dans les cas où il n'y a pas assez de régions d'intérêt pour un apprentissage automatique efficace, augmenter les données d'entraînement avec des séquences homologues peut améliorer la performance du modèle, même avec moins de données.
Applications Réelles
Les scientifiques ont appliqué la méthode d'augmentation phylogénétique à de vrais ensembles de données génomiques pour tester son efficacité. Une étude a analysé des données de la lignée cellulaire Drosophila S2, où les chercheurs ont prédit l'activité des amplificateurs. Ils ont extrait des homologues de plusieurs espèces de Drosophila et les ont incorporés dans leur ensemble de données d'entraînement.
Une autre analyse a examiné des pics DNase-seq binaires de différentes lignées cellulaires humaines. Dans ce cas, les chercheurs ont utilisé des homologues d'espèces mammifères étroitement apparentées. Les résultats ont montré une amélioration marquée des prédictions du modèle lors de l’utilisation de l'augmentation phylogénétique.
En plus, la méthode s'est révélée utile lorsqu'il s'agissait d'entraîner des modèles sur des ensembles de données beaucoup plus petits, comme ceux examinant les protéines liant l'ARN chez la levure. Les chercheurs ont constaté que l'application de l'augmentation phylogénétique augmentait considérablement la capacité du modèle à prédire des caractéristiques biologiques pertinentes.
Explorer l'Impact des Hyperparamètres
Pour évaluer l'efficacité de l'augmentation phylogénétique, les chercheurs ont exploré divers facteurs, connus sous le nom d'hyperparamètres. Un domaine critique qu'ils ont analysé était le nombre d'espèces incluses dans le processus d'augmentation. Ils ont entraîné des modèles avec différentes espèces, mesurant les améliorations de la performance prédictive.
Ils ont également examiné comment le taux d'augmentation appliqué pendant l'entraînement du modèle affectait les résultats. Les premières découvertes indiquent qu'appliquer l'augmentation à un taux modéré menait à de meilleurs résultats que de l'utiliser excessivement sur chaque séquence d'entraînement. Cela suggère qu'il existe une quantité optimale d'augmentation nécessaire pour maximiser la performance sans introduire trop de variabilité.
Conclusion
L'augmentation phylogénétique représente un outil puissant pour faire avancer la recherche génomique avec le deep learning. En utilisant des séquences homologues d'espèces apparentées, les chercheurs peuvent surmonter les limitations de données et créer des modèles avec de meilleures capacités prédictives.
Alors que le deep learning continue de jouer un rôle crucial dans la compréhension de la génétique, des méthodes comme l'augmentation phylogénétique ont le potentiel d'améliorer considérablement l'efficacité et l'efficacité de ces modèles.
À une époque où de grands ensembles de données deviennent de plus en plus disponibles, cette méthode pourrait aider les chercheurs à obtenir des aperçus biologiques vitaux, contribuant finalement à notre compréhension des mécanismes génétiques complexes.
Avec son large éventail d'applications à travers divers organismes et conditions expérimentales, l'augmentation phylogénétique promet des avancées futures en génomique.
Titre: Improving the performance of supervised deep learning for regulatory genomics using phylogenetic augmentation
Résumé: Structured abstractO_ST_ABSMotivationC_ST_ABSSupervised deep learning is used to model the complex relationship between genomic sequence and regulatory function. Understanding how these models make predictions can provide biological insight into regulatory functions. Given the complexity of the sequence to regulatory function mapping (the cis-regulatory code), it has been suggested that the genome contains insufficient sequence variation to train models with suitable complexity. Data augmentation is a widely used approach to increase the data variation available for model training, however current data augmentation methods for genomic sequence data are limited. ResultsInspired by the success of comparative genomics, we show that augmenting genomic sequences with evolutionarily related sequences from other species, which we term phylogenetic augmentation, improves the performance of deep learning models trained on regulatory genomic sequences to predict high-throughput functional assay measurements. Additionally, we show that phylogenetic augmentation can rescue model performance when the training set is down-sampled and permits deep learning on a real-world small dataset, demonstrating that this approach improves experimental data efficiency. Overall, this data augmentation method represents a solution for improving model performance that is applicable to many supervised deep learning problems in genomics. Availability and implementationThe open-source GitHub repository agduncan94/phylogenetic_augmentation_paper includes the code for rerunning the analyses here and recreating the figures. [email protected]
Auteurs: Alan M Moses, A. G. Duncan, J. A. Mitchell
Dernière mise à jour: 2024-01-17 00:00:00
Langue: English
Source URL: https://www.biorxiv.org/content/10.1101/2023.09.15.558005
Source PDF: https://www.biorxiv.org/content/10.1101/2023.09.15.558005.full.pdf
Licence: https://creativecommons.org/licenses/by-nc/4.0/
Changements: Ce résumé a été créé avec l'aide de l'IA et peut contenir des inexactitudes. Pour obtenir des informations précises, veuillez vous référer aux documents sources originaux dont les liens figurent ici.
Merci à biorxiv pour l'utilisation de son interopérabilité en libre accès.