Intégration des séquences d'ADN et des descriptions pour améliorer la prédiction de la fonction des gènes
Un nouveau jeu de données combine des séquences d'ADN et des descriptions de la fonction des enzymes pour améliorer les modèles prédictifs.
― 10 min lire
Table des matières
Prédire comment les gènes fonctionnent à partir de leur ADN est un truc clé en biologie. Pas mal de modèles informatiques ont été créés pour analyser les Séquences d'ADN et deviner leurs fonctions. Ces modèles s'appuient souvent sur des bases de données publiques qui lient les séquences d'ADN à des fonctions spécifiques. Mais en fait, beaucoup de connaissances biologiques importantes ne sont pas incluses dans ces étiquettes simples. Au lieu de ça, on les trouve souvent dans de longues descriptions textuelles non structurées qui expliquent comment les enzymes se comportent, les réactions auxquelles elles participent et les mécanismes derrière tout ça. En combinant les séquences d'ADN avec ces riches données textuelles, on peut créer de meilleurs modèles qui comprennent les fonctions des gènes.
Actuellement, il n'existe pas de dataset qui permet aux algorithmes d'apprentissage automatique d'utiliser ce genre d'informations multimodales. Pour combler ce manque, on propose un nouveau dataset et un ensemble de références qui aideront à développer des modèles de réseaux de neurones avancés capables d'analyser à la fois les séquences d'ADN et les explications en langage naturel des fonctions des gènes.
Motivation
Un des principaux défis en biologie, c'est de savoir ce que fait un gène juste en regardant son ADN. Beaucoup de méthodes d'IA pour prédire les fonctions des gènes se basent sur des bases de données remplies de séquences d'ADN et de leurs étiquettes fonctionnelles. Ces étiquettes donnent un certain aperçu scientifique, mais elles reposent souvent sur un ensemble limité d'organismes bien connus et ne représentent pas la diversité qu’on trouve dans la nature.
En plus, ces bases de données peuvent être déséquilibrées en ce qui concerne les différentes fonctions qu'elles représentent. Ça veut dire qu'un bon modèle d'IA a besoin de pouvoir traiter des séquences d'ADN qui ne correspondent à aucune d'entre elles dans les bases de données existantes.
En ajoutant des Descriptions en langage naturel des fonctions enzymatiques avec les séquences d'ADN, on pourrait améliorer la performance de ces modèles d'IA pour prédire des fonctions, surtout pour des séquences nouvelles ou moins courantes. Ces descriptions nous donnent des insights détaillés sur le fonctionnement des enzymes et leurs rôles dans les processus biologiques. Intégrer ces infos avec les données d'ADN pourrait aider les modèles à fournir des descriptions claires des fonctions prédites, rendant les résultats plus faciles à interpréter pour les scientifiques.
Le besoin de meilleurs algorithmes pour prédire les fonctions à partir des séquences d'ADN va au-delà de la biologie. L'Apprentissage multimodal, qui combine différents types de données, offre de nouvelles façons de traiter des données diverses et d'améliorer comment les modèles généralisent des données d'entraînement à des données jamais vues. Travailler sur des défis biologiques peut aussi aider à améliorer des méthodes qui peuvent s'appliquer dans d'autres domaines où il faut combiner différents types de données.
Contexte
Grâce aux avancées dans la technologie de séquençage génétique, on a maintenant accès à d'énormes quantités de données biologiques. Bien que les séquences d'ADN elles-mêmes soient bien organisées et liées à divers entités biologiques comme les protéines et les gènes, le savoir sur ce que font ces séquences n'est souvent pas aussi clair.
Il existe des biais significatifs dans les bases de données biologiques, qui se concentrent plus sur les organismes couramment étudiés et laissent de côté une grande partie de la diversité dans la nature. De plus, beaucoup d'annotations dans ces bases sont basées sur des prédictions plutôt que sur des preuves expérimentales directes, ce qui peut mener à des inexactitudes.
Deux grandes bases de données, UniProt et l'Archive Européenne des Nucléotides, sont centrales pour stocker et organiser les séquences de protéines et de gènes. UniProt a deux sections principales : UniProtKB/TrEMBL, qui inclut des séquences de protéines non vérifiées, et UniProtKB/Swiss-Prot, qui comprend des entrées révisées manuellement avec des infos fonctionnelles fiables. L'ENA relie les séquences d'ADN des gènes avec les IDs de protéines correspondants dans UniProt, tandis que des bases comme KEGG décrivent les fonctions biologiques globales et les voies associées à ces séquences.
Alors que des modèles pour intégrer des séquences de protéines ont gagné en attention, prédire la fonction à partir des séquences de gènes reste crucial. On présente deux modèles notables conçus spécifiquement pour encoder les séquences de gènes, ainsi que notre propre modèle pour comparaison.
Modèles de Gènes Existants
LOLBERT
On a développé un modèle appelé Language of Life BERT (LOLBERT), qui est basé sur l'architecture BERT. Ce modèle a été pré-entraîné sur des données génomiques provenant de bactéries et d'archées. Il utilise un design de transformateur qui aide à capturer et comprendre les relations au sein des données.
DNABERT
DNABERT est un autre modèle pré-entraîné qui se concentre spécifiquement sur les séquences d'ADN. Il utilise une approche similaire à BERT mais est entraîné pour prédire des nucléotides masqués. Ce modèle capture les relations au sein des séquences de nucléotides, offrant des insights sur leur fonction globale.
Apprentissage Multimodal
Les dernières années ont vu une montée de l'apprentissage multimodal, où les modèles apprennent à partir de types de données variés. Les modèles de la famille GPT ont montré un grand succès dans les tâches linguistiques, inspirant l'utilisation de stratégies multimodales dans divers domaines, y compris les images, le son et la santé.
En permettant aux modèles d'apprendre à partir des données d'ADN et de texte, on peut améliorer leur capacité à comprendre et prédire des informations biologiques. On vise à ce que notre référence soutienne le développement de ces modèles avancés.
Création de Dataset
Étant donné le manque de datasets combinant séquences d'ADN avec leurs descriptions en langage naturel, on a décidé de créer un dataset multimodal complet. Notre dataset associe des séquences d'ADN de divers gènes avec des descriptions détaillées de leurs fonctions.
Sources de données
Le dataset provient principalement de deux sources : UniProt et l'Archive Européenne des Nucléotides. On s'est concentré sur des séquences d'organismes procaryotes, qui sont abondantes et diverses.
Nettoyage et Mapping
Pour garantir l'exactitude, on a fait correspondre les numéros d'accès UniProt aux identifiants dans les bases UniRef et EMBL. On a filtré les enregistrements manquants d'annotations clés et organisé les données pour maintenir des descriptions fonctionnelles de haute qualité.
Division des données
On a développé une stratégie pour diviser le dataset en ensembles d'entraînement, de validation et de test tout en garantissant qu'aucune séquence similaire n'apparaisse dans ces ensembles. Cette approche aide à prévenir le sur-apprentissage et s'assure que le modèle peut bien se généraliser à de nouvelles données.
Descriptions en Langage Naturel
Chaque séquence d'ADN dans notre dataset vient avec une description détaillée de la fonction de l'enzyme. Ces descriptions sont recueillies dans plusieurs sources, y compris KEGG et UniProt, assurant un contexte riche pour interpréter les séquences d'ADN.
On a construit un pipeline pour générer ces descriptions en langage naturel en utilisant des templates structurés. Ça garantit que l'information est précise et informative tout en évitant des interprétations erronées.
Datasets de Référence
On a créé quatre datasets de référence à partir des données brutes :
- Référence I : Contient un grand ensemble de séquences d'ADN des bases TrEMBL et Swiss-Prot avec des descriptions.
- Référence II : Un ensemble équilibré qui inclut à la fois des descriptions d'ADN et textuelles.
- Référence III : Se concentre uniquement sur les données Swiss-Prot, créant une distinction claire entre les fonctions enzymatiques connues et inconnues.
- Référence IV : Un dataset équilibré dérivé uniquement des entrées Swiss-Prot.
Division des Données
Chaque dataset de référence se compose d'ensembles d'entraînement, de validation et de test. L'objectif était de garder la représentation des diverses fonctions enzymatiques équilibrée tout en assurant une large gamme d'exemples pour une évaluation robuste.
Metrics d'Évaluation
Pour évaluer comment le dataset fonctionne, on utilise plusieurs metrics liés à la classification et au clustering. On a employé plusieurs modèles basés sur des transformateurs pour évaluer la qualité de nos embeddings des séquences d'ADN.
Metrics Hiérarchiques
Comme les fonctions biologiques sont souvent organisées hiérarchiquement, on utilise la précision hiérarchique, le rappel et le F-score pour mesurer la performance.
Qualité du Clustering
On examine aussi la qualité des clusters formés par les embeddings d'ADN en utilisant le score de silhouette, qui mesure à quel point les points d'un cluster sont similaires entre eux par rapport aux points dans d'autres clusters.
Résultats
On a évalué différents algorithmes d'apprentissage profond sur les quatre datasets de référence. Les résultats indiquent que le modèle LOLBERT finement ajusté surpasse constamment les autres sur tous les benchmarks.
Évaluation de la Performance
Le modèle LOLBERT finement ajusté a montré des performances supérieures dans nos tests de clustering et de précision, confirmant son efficacité à prédire les fonctions enzymatiques à partir des séquences d'ADN.
Directions Futures
Pour améliorer davantage notre dataset, on prévoit d'inclure plus de tâches et de modèles. Un objectif est de développer des modèles capables de générer des descriptions textuelles basées sur des séquences d'ADN, améliorant notre compréhension des fonctions des gènes.
Impact Plus Large
Ce travail pose une base pour faire avancer l'étude des fonctions enzymatiques en intégrant des séquences d'ADN avec des descriptions en langage naturel. En offrant une référence robuste, on vise à faciliter le développement de modèles qui peuvent analyser efficacement les données biologiques, bénéficiant à la fois à la recherche scientifique et aux applications dans des scénarios réels.
Alors qu'on continue à affiner notre dataset et nos modèles, on encourage la collaboration au sein de la communauté de recherche pour faire avancer ce domaine important.
Titre: A Benchmark Dataset for Multimodal Prediction of Enzymatic Function Coupling DNA Sequences and Natural Language
Résumé: Predicting gene function from its DNA sequence is a fundamental challenge in biology. Many deep learning models have been proposed to embed DNA sequences and predict their enzymatic function, leveraging information in public databases linking DNA sequences to an enzymatic function label. However, much of the scientific community's knowledge of biological function is not represented in these categorical labels, and is instead captured in unstructured text descriptions of mechanisms, reactions, and enzyme behavior. These descriptions are often captured alongside DNA sequences in biological databases, albeit in an unstructured manner. Deep learning of models predicting enzymatic function are likely to benefit from incorporating this multi-modal data encoding scientific knowledge of biological function. There is, however, no dataset designed for machine learning algorithms to leverage this multi-modal information. Here we propose a novel dataset and benchmark suite that enables the exploration and development of large multi-modal neural network models on gene DNA sequences and natural language descriptions of gene function. We present baseline performance on benchmarks for both unsupervised and supervised tasks that demonstrate the difficulty of this modeling objective, while demonstrating the potential benefit of incorporating multi-modal data types in function prediction compared to DNA sequences alone. Our dataset is at: https://hoarfrost-lab.github.io/BioTalk/.
Auteurs: Yuchen Zhang, Ratish Kumar Chandrakant Jha, Soumya Bharadwaj, Vatsal Sanjaykumar Thakkar, Adrienne Hoarfrost, Jin Sun
Dernière mise à jour: 2024-07-21 00:00:00
Langue: English
Source URL: https://arxiv.org/abs/2407.15888
Source PDF: https://arxiv.org/pdf/2407.15888
Licence: https://creativecommons.org/licenses/by/4.0/
Changements: Ce résumé a été créé avec l'aide de l'IA et peut contenir des inexactitudes. Pour obtenir des informations précises, veuillez vous référer aux documents sources originaux dont les liens figurent ici.
Merci à arxiv pour l'utilisation de son interopérabilité en libre accès.
Liens de référence
- https://hoarfrost-lab.github.io/BioTalk/
- https://arxiv.org/abs/1803.09010
- https://github.com/hoarfrost-lab/biotalk
- https://github.com/Hoarfrost-Lab/BioTalk/blob/main/croissant.json
- https://creativecommons.org/licenses/by/4.0/legalcode.txt
- https://github.com/mlcommons/croissant
- https://nips.cc/public/guides/CodeSubmissionPolicy
- https://neurips.cc/public/EthicsGuidelines