Avancées dans les techniques de séquençage génomique
Nouvelles méthodes améliorent le séquençage du génome, aidant à l'identification des organismes et aux études écologiques.
― 11 min lire
Table des matières
- Défis dans le séquençage du génome
- Amélioration de la séparation des séquences
- Nouveaux outils pour la détection de cobionts
- Visualisation des composants de séquence
- L'importance de la composition dans l'analyse des séquences
- Tableau de bord interactif pour l'exploration
- Comparaison des différentes méthodes de détection
- Robustesse des méthodes basées sur la composition
- Évaluation de la couverture pour le contrôle qualité
- Efficacité computationnelle et évolutivité
- Conclusion
- Source originale
- Liens de référence
Des avancées récentes dans la technologie de séquençage du génome améliorent notre capacité à créer des Génomes de référence pour toute une variété d'organismes. C'est super important pour les espèces qui n'ont pas été séquencées souvent avant. L'objectif, c'est d'en apprendre plus sur l'évolution de ces espèces et leurs rôles dans différents écosystèmes.
Quand les scientifiques prennent des échantillons d'organismes sauvages, ces échantillons comprennent souvent non seulement le matériel génétique de l'espèce ciblée, mais aussi de l'ADN d'autres sources. Cet ADN supplémentaire peut provenir d'organelles, de petits organismes vivant à l'intérieur, ou même de contaminants de l'environnement. Ce mélange de matériel génétique complique la création d'un génome clair pour l'espèce cible. Beaucoup de génomes publiés ont des problèmes de contamination, ce qui peut mener à des conclusions incorrectes dans les études biologiques.
Par contre, ces données mixtes peuvent aussi donner une chance d'étudier les relations écologiques entre différents organismes. Avec les bons outils informatiques, on peut créer des génomes de haute qualité pour ces autres organismes, même ceux qui sont difficiles à cultiver en laboratoire.
Des efforts comme le projet Darwin Tree of Life visent à séquencer 70 000 génomes d'organismes eucaryotes, qui sont des formes de vie complexes. Ce projet offre une occasion unique d'étudier l'évolution de nombreuses espèces et comment elles interagissent entre elles. Les données de haute qualité produites devraient aider les chercheurs à séparer plus efficacement les séquences de différentes sources. Une meilleure assemblage des génomes garantit que les séquences peuvent être classées plus précisément, ce qui est important pour comprendre la biologie de divers organismes.
Défis dans le séquençage du génome
Les méthodes traditionnelles de tri des séquences génétiques s'appuient sur des comparaisons avec des bases de données existantes. Malheureusement, ces bases de données peuvent aussi contenir des séquences contaminées, ce qui mène à des attributions incorrectes. De plus, une référence associée peut ne pas exister pour de nombreux organismes, surtout ceux qui n'ont pas été largement étudiés. Ce problème est plus prononcé pour les séquences qui ont divergé de manière significative au fil du temps. Par exemple, les séquences d'organismes multicellulaires ont souvent peu d'emplacements stables utilisables pour la classification, rendant les attributions précises plus difficiles.
Les techniques d'apprentissage machine, comme les classificateurs de réseaux neuronaux supervisés, rencontrent des limitations similaires. Ces modèles s'appuient sur des séquences connues pour l'entraînement, rendant leur performance sur des échantillons inconnus imprévisible.
Amélioration de la séparation des séquences
Pour différencier de manière fiable les séquences, même en l'absence de bases de données, les scientifiques examinent les différences inhérentes dans la Composition des séquences parmi les organismes. Un outil, BlobToolKit, permet aux chercheurs de visualiser et d'extraire des groupes de séquences basés sur le contenu en GC et la Couverture. Même si le contenu en GC est utile, ça ne suffit pas toujours pour distinguer différents organismes.
Les scientifiques peuvent aussi utiliser de courts sous-chaînes, appelées k-mers, pour un tri non supervisé. En séparant les séquences selon la fréquence d'apparition des k-mers spécifiques et leur couverture, les chercheurs ont établi des méthodes qui fonctionnent bien en métagénomique. Cependant, l'efficacité des outils actuels sur des séquences mixtes incluant des organismes avec des structures internes diverses est encore en évaluation.
Une autre zone moins explorée a été le regroupement de lectures de séquences non assemblées basé sur la composition. En évaluant rapidement le contenu d'un ensemble de lectures, les chercheurs peuvent déterminer la qualité d'un échantillon avant l'assemblage. Cela inclut la vérification s'il y a suffisamment de couverture du génome cible. Bien que des séquences longues précises, comme celles produites par les nouvelles technologies, soient tentantes à traiter comme de plus petits segments, le volume d'lectures peut engendrer des obstacles computationnels.
Nouveaux outils pour la détection de cobionts
Dans ce travail, une méthode nouvelle est introduite pour détecter du matériel génétique supplémentaire et des contaminants dans des échantillons à travers des représentations en deux dimensions de la composition des k-mers de séquence. Un autoencodeur variationnel (VAE) a été mis en œuvre pour projeter les compteurs de tétranucleotides en deux dimensions.
Les VAE ont été efficaces dans diverses applications biologiques, y compris l'analyse de populations et la prédiction des fonctions des protéines. En ajoutant des annotations aux embeddings en deux dimensions appris par le VAE, les chercheurs peuvent mettre en avant les différences de composition entre les séquences de différentes sources. Une méthode basée sur les k-mers a également été développée pour estimer de manière précise la couverture des séquences.
Pour rendre le processus interactif, un tableau de bord a été créé permettant aux utilisateurs d'explorer les organismes potentiels présents dans un échantillon. Plutôt que d'essayer de classer ou de séparer les séquences de manière explicite, ces outils ont pour but d'améliorer l'identification des cobionts.
Visualisation des composants de séquence
Visualiser une collection de séquences ensemble offre un aperçu des composants trouvés dans un échantillon. Chaque point dans la visualisation représente une séquence individuelle, avec des couleurs indiquant différentes sources ou étiquettes taxonomiques.
En utilisant des données de 204 espèces de papillons et de mites séquencées à travers le projet Darwin Tree of Life, l'impact de cette approche intégrée pour la détection des cobionts a été démontré. Les résultats s'alignent avec ceux des méthodes traditionnelles de vérification de contamination. L'approche a montré un succès similaire avec d'autres organismes, comme les poissons, les algues vertes et les plantes. La capacité du VAE à gérer de grands ensembles de données améliore nettement l'analyse des informations génomiques.
L'efficacité de la méthode réside dans sa capacité à identifier les cobionts lorsque les méthodes traditionnelles basées sur les références échouent souvent, surtout dans les cas où aucune référence étroitement liée n'existe.
L'importance de la composition dans l'analyse des séquences
La principale mesure de la composition des séquences examinée dans ce travail est le comptage des tétranucleotides. Bien que d'autres tailles de k-mers pourraient être utilisées, une taille de quatre offre un équilibre entre efficacité computationnelle et séparation efficace des séquences à travers divers échantillons.
Le calcul de ces comptages de tétranucleotides peut être effectué de manière efficace, s'appuyant sur une mise en œuvre logicielle spécifique. Cette méthode est adaptée même pour des ensembles de données composés de millions de lectures de séquençage.
Pour visualiser des données complexes à travers le VAE, l'encodeur réduit les dimensions des vecteurs de comptage de tétranucleotides à deux dimensions. En conséquence, les séquences avec une composition similaire sont plus proches les unes des autres dans cet espace latent. Le décodeur tente ensuite de reconstruire les séquences originales à partir de ces représentations réduites, ce qui le rend robuste au bruit et à l'erreur.
Des recherches montrent que les VAE fournissent souvent une séparation plus claire des classes que les méthodes traditionnelles comme l'analyse en composantes principales. Ils nécessitent également moins de puissance de calcul que d'autres techniques de réduction dimensionnelle, ce qui est bénéfique pour gérer de grands ensembles de données.
Tableau de bord interactif pour l'exploration
Un tableau de bord interactif a été conçu pour aider les chercheurs à filtrer et explorer les données efficacement. Cette interface permet la visualisation des séquences en fonction de diverses caractéristiques, y compris la densité de codage estimée et les classifications taxonomiques. Les utilisateurs peuvent également zoomer sur des zones d'intérêt, voir des statistiques et effectuer des "vérifications aléatoires" des clusters de lectures via des requêtes BLAST.
Cette fonctionnalité est cruciale pour évaluer rapidement la composition des échantillons et identifier les problèmes potentiels de contamination ou de séquences cibles manquantes.
Comparaison des différentes méthodes de détection
Pour évaluer l'efficacité des stratégies basées sur la composition pour détecter les cobionts et les contaminants, les chercheurs ont comparé à quelle fréquence cette méthode réussissait à identifier des organismes rapportés par d'autres outils établis utilisés dans les processus d'assemblage de génomes et de conservation des données.
Beaucoup des organismes identifiés correspondaient bien à ceux enregistrés par des méthodes traditionnelles, bien que certains cas aient mis en lumière que l'approche basée sur la composition avait réussi à détecter des organismes que les outils basés sur des références avaient manqués.
En visualisant les lectures près des pics dans des histogrammes en deux dimensions, certains organismes ont été identifiés avec succès. Cependant, cette méthode automatisée était moins fiable pour les espèces qui ne formaient pas des clusters distincts, montrant les limites inhérentes aux approches basées sur des références.
Robustesse des méthodes basées sur la composition
La capacité à détecter les cobionts en utilisant l'approche basée sur la composition est particulièrement utile lorsqu'on traite des organismes qui manquent de représentation suffisante dans les bases de données. Cela a été illustré par des cas de microsporidiens, qui sont souvent difficiles à classer en raison de ressources génomiques limitées.
En intégrant plusieurs sources d'information, les chercheurs peuvent améliorer l'identification des cobionts. Par exemple, même lorsque les méthodes basées sur des références n'ont pas réussi à identifier des lectures appartenant à certains organismes, visualiser les clusters de séquences a souvent révélé des informations précieuses sur leur composition.
Des schémas similaires ont été observés dans d'autres études sur des organismes, soulignant que cette approche peut s'étendre au-delà des insectes à divers taxa, même parmi des organismes éloignés évolutionnairement.
Évaluation de la couverture pour le contrôle qualité
Dans les cas où la couverture estimée varie significativement entre les séquences cibles et non cibles, visualiser cette couverture peut aider à identifier les contaminants. Les histogrammes de couverture résument couramment la couverture des k-mers et peuvent indiquer si un séquençage suffisant a été atteint pour un assemblage réussi.
En intégrant des informations de couverture avec des représentations en deux dimensions de la composition des lectures, les chercheurs peuvent mieux confirmer l'identité des organismes présents dans un échantillon. Cette combinaison peut fournir un contexte précieux pour évaluer la qualité de l'échantillon.
Efficacité computationnelle et évolutivité
L'effort computationnel requis pour recueillir des comptages de tétranucleotides évolue bien avec la taille des ensembles de données de lectures. Même de grands ensembles de données peuvent être traités efficacement, avec des outils disponibles pour aider à analyser et interpréter les résultats. Bien que des demandes computationnelles plus élevées existent pour des ensembles de données plus vastes, les méthodes présentées sont conçues pour rester gérables pour les chercheurs.
Former le VAE nécessite des ressources mémoire importantes, surtout pour les grands ensembles de données. Cependant, des techniques existent pour optimiser l'utilisation de la mémoire, permettant aux méthodes d'être mises en œuvre sur du matériel standard.
Conclusion
Ce travail illustre la valeur d'utiliser des représentations en deux dimensions de la composition des séquences pour identifier et différencier des séquences provenant de diverses sources au sein d'ensembles de données génomiques à longues lectures. Cette technique est particulièrement utile pour étudier des organismes qui manquent de représentation adéquate dans les bases de données existantes.
L'intégration des données de composition avec des étiquettes taxonomiques peut améliorer la capacité à traquer les séquences d'organismes spécifiques, signalant celles qui n'ont pas été classées avec précision par des méthodes traditionnelles. À mesure que l'intérêt grandit pour le séquençage d'organismes divers, ces outils peuvent aider les chercheurs à découvrir des génomes souvent négligés et à améliorer notre compréhension des relations biologiques complexes.
Titre: Disentangling Cobionts and Contamination in Long-Read Genomic Data using Sequence Composition
Résumé: The recent acceleration in genome sequencing targeting previously unexplored parts of the tree of life presents computational challenges. Samples collected from the wild often contain sequences from several organisms, including the target, its cobionts, and contaminants. Effective methods are therefore needed to separate sequences. Though advances in sequencing technology make this task easier, it remains difficult to taxonomically assign sequences from eukaryotic taxa that are not well-represented in databases. Therefore, reference-based methods alone are insufficient. Here, I examine how we can take advantage of differences in sequence composition between organisms to identify symbionts, parasites and contaminants in samples, with minimal reliance on reference data. To this end, I explore data from the Darwin Tree of Life project, including hundreds of high-quality HiFi read sets from insects. Visualising two-dimensional representations of read tetranucleotide composition learned by a Variational Autoencoder can reveal distinct components of a sample. Annotating the embeddings with additional information, such as coding density, estimated coverage, or taxonomic labels allows rapid assessment of the contents of a dataset. The approach scales to millions of sequences, making it possible to explore unassembled read sets, even for large genomes. Combined with interactive visualisation tools, it allows a large fraction of cobionts reported by reference-based screening to be identified. Crucially, it also facilitates retrieving genomes for which suitable reference data are absent.
Auteurs: Claudia C Weber
Dernière mise à jour: 2024-06-03 00:00:00
Langue: English
Source URL: https://www.biorxiv.org/content/10.1101/2024.05.30.596622
Source PDF: https://www.biorxiv.org/content/10.1101/2024.05.30.596622.full.pdf
Licence: https://creativecommons.org/licenses/by/4.0/
Changements: Ce résumé a été créé avec l'aide de l'IA et peut contenir des inexactitudes. Pour obtenir des informations précises, veuillez vous référer aux documents sources originaux dont les liens figurent ici.
Merci à biorxiv pour l'utilisation de son interopérabilité en libre accès.