Avancées dans l'appel de variants pour la génomique bactérienne
Cette étude met en avant des méthodes améliorées pour l'appel de variants bactériens en utilisant la technologie ONT.
― 9 min lire
Table des matières
- Améliorations de la technologie de séquençage par nanopores
- Aperçu de l'étude
- Analyse des types de lectures et modèles de basecalling
- Création d'ensembles de vérités des variants
- Évaluation des méthodes d'appel des variants
- Exploration de l'impact de la profondeur de lecture
- Exigences en ressources informatiques
- Résultats principaux de l'étude
- Limites et directions futures
- Conclusion
- Source originale
L'appel des variants est une étape clé pour étudier la génétique des bactéries. Ça consiste à identifier les différences dans les séquences d'ADN des bactéries, ce qui est super important pour comprendre comment les maladies se propagent, prévoir la résistance aux antibiotiques et construire des arbres généalogiques de différentes souches bactériennes. Ces infos sont cruciales en santé publique, où ça aide à contrôler les épidémies et à guider les décisions de traitement.
Ces 15 dernières années, les techniques de séquençage à courtes lectures, surtout celles d'Illumina, ONT été le moyen privilégié pour l'appel des variants dans les études bactériennes, grâce à leur grande précision dans la lecture des séquences d'ADN. Mais un nouveau joueur est arrivé : le séquençage par nanopores d'Oxford Nanopore Technologies (ONT). L'un des gros avantages du séquençage ONT, c'est sa capacité à produire des données quasiment en temps réel et la portabilité de ses appareils, ce qui permet aux chercheurs d'analyser des échantillons directement sur le terrain. Malgré ces atouts, le séquençage ONT a eu des soucis de précision, ce qui limite son utilisation pour l'appel des variants.
Améliorations de la technologie de séquençage par nanopores
Récemment, ONT a sorti une nouvelle technologie avec une meilleure précision, incluant le pore R10.4 et de nouveaux basecallers qui peuvent fonctionner en différents modes de précision. Ces améliorations permettent aux chercheurs d'identifier des lectures appariées, signifiant que les deux brins d'une molécule d'ADN sont séquencés, ce qui renforce la précision des lectures.
Plusieurs outils logiciels d'appel des variants ont été développés pour le séquençage ONT, mais beaucoup de tests se sont concentrés sur les génomes humains plutôt que sur les bactéries. C'est important parce que la structure de l'ADN et les modèles de variation sont très différents entre humains et bactéries. Donc, des méthodes optimisées pour des données humaines pourraient ne pas être aussi efficaces sur des données bactériennes.
Aperçu de l'étude
Cette étude visait à évaluer l'appel de SNP (polymorphismes à un seul nucléotide) et d'Indels (insertions et suppressions) en utilisant à la fois les méthodes de séquençage ONT et Illumina sur 14 espèces bactériennes différentes. Pour garantir des résultats précis, les mêmes échantillons d'ADN ont été utilisés pour les deux méthodes de séquençage.
Une nouvelle stratégie a été mise en place pour créer un ensemble fiable de vérités des variants, qui consiste à appliquer des variations connues de différentes souches bactériennes pour créer un scénario réaliste d'évaluation des performances des différentes méthodes d'Appel de variants.
Analyse des types de lectures et modèles de basecalling
Dans l'analyse, les données de séquençage ONT ont été traitées en utilisant trois modèles de basecalling différents avec des précisions variées – rapide, haute précision, et super-haute précision – ainsi que différents types de lectures (simplex et duplex). Les lectures simplex impliquent le séquençage d'un seul brin d'ADN, tandis que les lectures duplex séquencent les deux brins.
Les résultats ont montré que les lectures duplex traitées avec le modèle de super-haute précision avaient les meilleures performances, atteignant un score d'identité médian de 99,93 %, indiquant un niveau de précision très élevé. Les statistiques compilées concernant les lectures ont été documentées pour référence future.
Création d'ensembles de vérités des variants
La première étape pour générer des vérités des variants a été d'assembler des génomes de référence précis à partir des données de séquençage. Cependant, simplement appeler des variants en se basant sur un génome de référence ne donnerait aucune différence, donc une version mutée de la référence a dû être créée.
Pour créer cette référence mutée, des différences uniques entre un échantillon et un génome étroitement lié ont été identifiées et appliquées à la référence. L'objectif était de rendre ces variants réalistes en évitant de les simuler au hasard. Cela impliquait de sélectionner un génome donneur qui ressemblait étroitement à l'échantillon. Après avoir identifié et traité les variants, une référence mutée a été établie, permettant aux chercheurs de connaître les différences attendues à comparer avec leurs appels de variants.
Évaluation des méthodes d'appel des variants
L'étude a testé six outils d'appel des variants différents sur les données ONT. La performance de ces outils a été comparée aux résultats obtenus avec les données Illumina, servant de référence. Une méthode pour évaluer la précision des variants appelés consistait à les classer comme vrais positifs ou faux positifs en fonction de leur correspondance avec l'ensemble de vérités établi.
Des métriques de précision comme la précision, le rappel et le score F1 (une mesure combinant précision et rappel) ont été calculées pour chaque méthode. L'analyse a révélé que Clair3 et DeepVariant étaient les meilleurs performers à travers différents types de lectures et de variants, avec le modèle de super-haute précision donnant les meilleurs résultats.
Exploration de l'impact de la profondeur de lecture
La profondeur de lecture se réfère au nombre de fois qu'une base particulière est séquencée, et cela peut grandement influencer la précision de l'appel des variants. L'étude a montré qu'à mesure que la profondeur de lecture augmentait, la précision des appels de SNP et d'indels augmentait aussi.
Fait intéressant, même à des profondeurs réduites (aussi basses que 10x), les nouvelles méthodes utilisant le basecalling super-haut de gamme étaient capables de rivaliser ou même de surpasser les méthodes standard d'Illumina. Cette découverte est significative pour les laboratoires avec des ressources limitées, car cela suggère qu'un séquençage de haute qualité peut encore être réalisé sans avoir besoin d'une profondeur importante.
Exigences en ressources informatiques
L'étude a également examiné quel type de ressources informatiques sont nécessaires pour effectuer ces analyses. Pour ceux qui utilisent des systèmes de calcul haute performance, les exigences pourraient être minimes. Cependant, de nombreux chercheurs pourraient avoir besoin d'utiliser des ordinateurs personnels standard.
La quantité de mémoire nécessaire et le temps nécessaire pour traiter les données peuvent varier considérablement entre les différents outils d'appel des variants. Par exemple, DeepVariant a été noté pour être plus lent et avoir besoin de plus de mémoire par rapport à d'autres comme Clair3, qui gérait des temps de traitement efficaces. Cet aperçu est pratique pour les petits labos qui n'ont pas accès à des installations de calcul étendues.
Résultats principaux de l'étude
Grâce à des tests et analyses approfondis, l'étude a trouvé que les méthodes d'apprentissage profond, en particulier Clair3 et DeepVariant, montrent un niveau de précision élevé dans la détection des variants à partir des données ONT. Cet aspect souligne le potentiel des techniques informatiques avancées dans les études génomiques.
La recherche pointe également que de nombreux problèmes d'alignement qui ont affecté les anciennes technologies ONT ont été atténués grâce aux améliorations de la précision des lectures. En particulier, les problèmes traditionnels de détection d'indels dans les données de séquençage sont devenus moins graves grâce aux avancées dans le séquençage et les algorithmes d'appel des variants.
Limites et directions futures
Bien que les résultats soient prometteurs, il y a des limites à considérer. L'étude s'est principalement concentrée sur de petits variants et n'a pas examiné les variants structurels, qui pourraient offrir des aperçus supplémentaires sur la diversité bactérienne. De plus, la sélection de génomes donneurs pour créer des vérités pourrait être améliorée en intégrant une gamme plus large de diversité génétique.
Pour aller de l'avant, une enquête plus approfondie sur la manière dont les variants structurels peuvent être appelés avec précision en utilisant la technologie ONT pourrait mener à des percées précieuses dans la compréhension de la génétique bactérienne. De plus, explorer l'impact de la distance génétique entre les génomes de référence et leurs effets sur la précision des appels de variants serait bénéfique.
Conclusion
En résumé, cette étude démontre comment la technologie ONT moderne combinée à des outils d'appel des variants avancés peut améliorer efficacement l'analyse de la génomique bactérienne. Les outils d'apprentissage profond, en particulier, ont montré qu'ils peuvent surpasser les méthodes traditionnelles, ouvrant la voie à des études génétiques plus efficaces et précises.
Au fur et à mesure que les technologies de séquençage s'améliorent et deviennent plus accessibles, le potentiel d'application généralisée en santé publique, dans le diagnostic clinique et la recherche s'élargit. Cela signifie que même les petits labos avec des ressources limitées peuvent s'engager dans une analyse génomique significative, faisant avancer la compréhension de l'évolution bactérienne et de la gestion des maladies.
En fin de compte, ce travail jette les bases d'études futures qui peuvent s'appuyer sur ces résultats, repoussant les limites de ce qui est possible dans le domaine de la génomique bactérienne. Les résultats sont prometteurs pour les applications cliniques et de santé publique, où un séquençage fiable et rapide peut avoir des bénéfices considérables.
En intégrant des méthodes et des technologies améliorées, les chercheurs peuvent renforcer leur capacité à traiter des problèmes de santé urgents, éclairant le comportement bactérien, la résistance et la propagation des infections. L'avenir de l'appel des variants en génomique bactérienne s'annonce radieux, avec des développements excitants à l'horizon.
Titre: Benchmarking reveals superiority of deep learning variant callers on bacterial nanopore sequence data
Résumé: Variant calling is fundamental in bacterial genomics, underpinning the identification of disease transmission clusters, the construction of phylogenetic trees, and antimicrobial resistance prediction. This study presents a comprehensive benchmarking of SNP and indel variant calling accuracy across 14 diverse bacterial species using Oxford Nanopore Technologies (ONT) and Illumina sequencing. We generate gold standard reference genomes and project variations from closely-related strains onto them, creating biologically realistic distributions of SNPs and indels. Our results demonstrate that ONT variant calls from deep learning-based tools delivered higher SNP and indel accuracy than traditional methods and Illumina, with Clair3 providing the most accurate results overall. We investigate the causes of missed and false calls, highlighting the limitations inherent in short reads and discover that ONTs traditional limitations with homopolymer-induced indel errors are absent with high-accuracy basecalling models and deep learning-based variant calls. Furthermore, our findings on the impact of read depth on variant calling offer valuable insights for sequencing projects with limited resources, showing that 10x depth is sufficient to achieve variant calls that match or exceed Illumina. In conclusion, our research highlights the superior accuracy of deep learning tools in SNP and indel detection with ONT sequencing, challenging the primacy of short-read sequencing. The reduction of systematic errors and the ability to attain high accuracy at lower read depths enhance the viability of ONT for widespread use in clinical and public health bacterial genomics.
Auteurs: Michael B. Hall, R. R. Wick, L. M. Judd, A. N. T. Nguyen, E. J. Steinig, O. Xie, M. R. Davies, T. Seemann, T. P. Stinear, L. J. M. Coin
Dernière mise à jour: 2024-07-09 00:00:00
Langue: English
Source URL: https://www.biorxiv.org/content/10.1101/2024.03.15.585313
Source PDF: https://www.biorxiv.org/content/10.1101/2024.03.15.585313.full.pdf
Licence: https://creativecommons.org/licenses/by/4.0/
Changements: Ce résumé a été créé avec l'aide de l'IA et peut contenir des inexactitudes. Pour obtenir des informations précises, veuillez vous référer aux documents sources originaux dont les liens figurent ici.
Merci à biorxiv pour l'utilisation de son interopérabilité en libre accès.