Avancées dans l'annotation du génome : un outil compagnon prend les devants
L'outil compagnon simplifie l'annotation génomique, assurant de meilleurs résultats et une meilleure expérience utilisateur.
― 7 min lire
Table des matières
Au cours des 15 dernières années, les nouvelles technologies pour lire l'ADN ont beaucoup progressé. Ça inclut le séquençage à long terme, qui peut lire des morceaux d'ADN plus longs. Le coût du séquençage a aussi baissé. Ces changements, avec de meilleurs programmes informatiques pour assembler les génomes, ont permis aux scientifiques de créer des séquences d'ADN complètes pour de nombreuses espèces. C'est super important pour les espèces avec de l'ADN complexe ou répétitif, qui étaient difficiles à lire avec les anciennes méthodes. Un projet ambitieux qui a vu le jour grâce à ces avancées est le Earth BioGenome Project, qui vise à séquencer environ 1,5 million des 10-15 millions d'espèces du groupe eucaryote.
Alors que créer des séquences de génomes est devenu plus facile, comprendre ce que ces séquences signifient - appelé annotation - reste un vrai casse-tête. Beaucoup d'outils de recherche utilisés pour ça produisent souvent seulement environ 55-70% de précision pour définir les gènes. Ce problème vient du fait que différents organismes ont des structures de gènes différentes, y compris diverses manières de splicer les gènes ensemble. Même les méthodes plus récentes qui utilisent le séquençage à long terme pour l'ARN peuvent encore donner des annotations de mauvaise qualité.
Le processus d'annotation de génomes implique souvent plusieurs outils qui ont des rôles différents, comme trouver des gènes ou identifier l'ARN non codant. De plus, soumettre ces annotations à des bases de données internationales peut être compliqué à cause de procédures alambiquées. En conséquence, beaucoup d'annotations de génomes ne sont pas facilement accessibles au public, ce qui va à l'encontre des principes qui promeuvent de rendre les données trouvables, accessibles, interopérables et réutilisables.
Outils pour l'annotation de génomes
Plusieurs outils automatiques ont été développés pour aider à l'annotation de génomes. Cependant, certains de ces outils manquent de fonctionnalités conviviales comme des interfaces web, ce qui les rend plus difficiles à utiliser. D'un autre côté, il y a des outils basés sur le web comme GenSAS et MEGANTE qui sont plus faciles à utiliser mais ont leurs propres limites. Par exemple, MEGANTE a une limite de taille de fichier, et le pipeline d'annotation eucaryote de l'NCBI demande aux utilisateurs de demander des annotations par email, ce qui centralise le processus et peut ralentir les choses.
En 2016, un outil appelé Companion a été introduit, conçu pour faciliter le processus d'annotation. Companion utilise des génomes de référence existants pour aider à fournir des annotations précises. Il emploie différents outils pour comparer les séquences et prédire les emplacements des gènes. Les résultats de Companion peuvent être facilement téléchargés dans divers formats, ce qui est pratique pour les utilisateurs. Il a aussi des fonctionnalités visuelles, comme des statistiques résumées et des arbres phylogénétiques, qui aident les utilisateurs à évaluer la qualité des annotations générées.
Malgré un petit nombre d'utilisateurs se concentrant sur les parasites, Companion a gagné en popularité. Au fur et à mesure que le nombre d'assemblages de génomes a augmenté dans les communautés de vecteurs et d'arthropodes, le besoin de Companion pour gérer de plus grands génomes est devenu clair. Les tests avec ces plus grands génomes ont montré que certaines parties de l'outil Companion devaient être mises à jour pour fonctionner efficacement.
Améliorations de Companion
La nouvelle version de Companion est configurée comme un pipeline pour la rendre plus rapide et plus fiable. Elle peut maintenant gérer des génomes allant jusqu'à 3 Go, bien qu'elle fonctionne mieux avec des génomes autour de 1 Go. Plusieurs nouvelles fonctionnalités et améliorations ont été apportées au logiciel. Le backend a été optimisé pour s'assurer que l'outil fonctionne de manière fluide et rapide.
Le serveur web de Companion est hébergé sur un système puissant qui peut gérer plusieurs demandes à la fois. Cela permet aux utilisateurs d'exécuter leurs travaux sans délais. Il y a aussi un serveur séparé utilisé pour tester de nouvelles fonctionnalités sans affecter le service principal.
Pour comparer les performances de Companion avec d'autres outils, des tests ont été effectués en utilisant les mêmes séquences d'entrée. Companion a été jugé beaucoup plus facile à utiliser par rapport à GenSAS, avec moins de clics nécessaires pour soumettre un travail. De plus, la configuration dans Companion est plus directe, car toutes les options sont disponibles sur une seule page, tandis que GenSAS nécessite de naviguer à travers plusieurs onglets.
Comparaison des performances
Dans plusieurs tests comparant Companion et GenSAS, Companion a systématiquement produit de meilleurs résultats. Par exemple, dans une comparaison utilisant les espèces de Plasmodium, Companion a non seulement trouvé un plus grand nombre de gènes mais a aussi eu une meilleure correspondance pour les emplacements des gènes. GenSAS a eu du mal à identifier certains gènes, ce qui pourrait être dû à la façon dont il combine plusieurs transcrits en un seul gène.
Une autre comparaison a été faite avec des espèces de champignons. Bien que les deux outils aient sous-évalué le nombre total de gènes, Companion a montré des résultats plus cohérents sur les métriques utilisées. Bien que GenSAS ait enregistré une précision nucléotidique plus élevée, il a tout de même raté beaucoup de gènes.
Une évaluation finale a été réalisée en utilisant une espèce de vecteur. Les résultats étaient quelque peu similaires aux tests précédents avec les champignons. Bien que les deux outils aient eu des problèmes pour prédire le nombre de gènes, Companion a montré une précision plus élevée dans l'identification des domaines de gènes.
Dans l'ensemble, Companion s'est révélé plus convivial et a fourni des annotations de haute qualité plus rapidement que GenSAS.
L'avenir de l'annotation de génomes
Des projets comme le Earth BioGenome Project visent à séquencer des génomes pour des millions d'espèces, soulevant des questions importantes sur la manière dont ces génomes seront annotés. Certains projets ont leurs propres pipelines pour cela, mais de nombreux groupes travaillent ensemble pour créer des données génomiques de haute qualité. Avoir un service bien testé comme Companion pourrait faire gagner du temps et des efforts par rapport à chaque groupe qui crée ses propres systèmes.
Une considération importante est le goulot d'étranglement qui existe lorsqu'on soumet des génomes à des bases de données. Bien qu'il y ait des efforts pour rationaliser ce processus, de nombreuses séquences génomiques sont soumises sans annotations, ce qui limite leur utilité. Companion vise à résoudre ces problèmes en fournissant un service simple et gratuit qui inclut des options visuelles et produit des annotations de qualité.
Il y a aussi une reconnaissance que l'annotation de génomes est toujours un défi. Même avec des outils avancés, atteindre une haute précision reste difficile pour de nombreuses espèces, comme les vecteurs. Cela souligne le besoin de curation manuelle pour des espèces clés comme les humains et Plasmodium. Néanmoins, Companion peut générer de bonnes annotations initiales, qui peuvent servir de point de départ pour un perfectionnement ultérieur.
En conclusion, Companion offre un serveur web robuste pour l'annotation de génomes, aidant les chercheurs à relever les difficultés persistantes dans ce domaine. Le nombre d'utilisateurs a triplé ces dernières années, suggérant un intérêt croissant pour l'outil, surtout à mesure que plus d'espèces sont séquencées. Companion se pose comme une ressource précieuse pour la communauté scientifique, en particulier dans l'étude de divers organismes.
Titre: Annotation and visualisation of parasite, fungi and arthropod genomes with Companion
Résumé: Although sequencing genomes has become increasingly popular, there is still a bottleneck for the annotation of the resulting assemblies. Structural and functional annotation is still challenging as it includes finding the correct gene sequences, annotating other elements such as RNA and being able to submit those data to databases to share it with the community. We developed the Companion web server to allow non-experts to annotate their genome using a reference-based method, enabling them to analyse their results before submitting to public databases. In this update paper, we describe how we included novel methods for gene finding and made the server more efficient to annotate genomes of up to 1 GB in size. The reference set was increased to genomes from the fungi and arthropod kingdoms. We show that Companion outperforms existing comparable tools. GRAPHICAL ABSTRACT O_FIG O_LINKSMALLFIG WIDTH=200 HEIGHT=145 SRC="FIGDIR/small/580948v1_ufig1.gif" ALT="Figure 1"> View larger version (35K): [email protected]@b98a5aorg.highwire.dtl.DTLVardef@12a2d8corg.highwire.dtl.DTLVardef@144b21_HPS_FORMAT_FIGEXP M_FIG C_FIG
Auteurs: Thomas D Otto, W. Haese-Hill, K. Crouch
Dernière mise à jour: 2024-02-21 00:00:00
Langue: English
Source URL: https://www.biorxiv.org/content/10.1101/2024.02.19.580948
Source PDF: https://www.biorxiv.org/content/10.1101/2024.02.19.580948.full.pdf
Licence: https://creativecommons.org/licenses/by/4.0/
Changements: Ce résumé a été créé avec l'aide de l'IA et peut contenir des inexactitudes. Pour obtenir des informations précises, veuillez vous référer aux documents sources originaux dont les liens figurent ici.
Merci à biorxiv pour l'utilisation de son interopérabilité en libre accès.