Simple Science

La science de pointe expliquée simplement

# Sciences de la santé# Épidémiologie

Suivi de la diversité génétique avec KHILL

KHILL aide les scientifiques à surveiller la diversité génétique et les changements de variantes dans les populations.

― 8 min lire


KHILL : Suivi desKHILL : Suivi deschangements génétiquesdans la diversité génétique virale.KHILL révèle des changements cruciaux
Table des matières

Pour comprendre à quel point un groupe de trucs vivants est divers, les scientifiques utilisent souvent des méthodes spéciales. Ces méthodes les aident à prendre des quantités énormes d'infos génétiques et à les réduire à un seul et simple chiffre. Ce chiffre peut servir à comparer la diversité des espèces dans différents environnements. Une approche courante s'appelle le Nombre Efficace d'Espèces, qui est une façon d'évaluer combien d'espèces différentes sont présentes dans un échantillon.

Quand les scientifiques examinent leurs données, ils voient à quelle fréquence chaque espèce apparaît. En faisant ça, ils remarquent que le nombre change selon la diversité de l'échantillon. Un échantillon diversifié aura un nombre plus élevé, tandis qu'un échantillon avec peu d'espèces montrera un nombre plus bas. Cette idée est aussi utile en dehors de la biologie. Par exemple, dans le domaine de la langue et de la communication, on utilise un chiffre similaire appelé perplexité, qui aide à mesurer la complexité des modèles linguistiques.

Les scientifiques s'intéressent à comparer différents échantillons pour en apprendre plus. Par exemple, ils regardent à quel point une étude a été bien conçue ou à quel point un écosystème peut être compliqué. Cette comparaison implique souvent de regarder quelque chose appelé diversité bêta. Cette mesure aide les scientifiques à découvrir à quel point différents groupes locaux d'espèces sont différents les uns des autres.

Nombre Efficace de Communautés

Le nombre efficace de communautés est un outil important pour comprendre à quel point un groupe d'espèces est divers. Si beaucoup d'espèces partagent des traits similaires et sont réparties de manière uniforme, le nombre efficace de communautés sera faible. Par contre, si un échantillon est très divers, il aura un nombre efficace plus élevé. Ce concept est basé sur des idées de la théorie de l'information, qui traite de la façon dont l'information est mesurée et comprise.

En adaptant ces idées, on peut aussi estimer le nombre efficace de génomes dans un ensemble de données. Cette nouvelle mesure s'appelle KHILL. Par exemple, en regardant des échantillons cliniques ou des groupes de génomes, les scientifiques peuvent maintenant suivre la diversité de l'information liée aux génomes présents.

Si on considère un ensemble de séquences identiques, la mesure KHILL montrera une valeur de 1. Cependant, quand aucune séquence ne se chevauche, elle atteint son nombre maximum, reflétant tous les ensembles distincts inclus. Cette adaptabilité permet aux scientifiques de suivre efficacement les changements de population au fil du temps.

Suivi des Changements de Population

Avec le métrique KHILL, les scientifiques peuvent suivre comment la composition génétique des populations change au fil du temps. Par exemple, dans une communauté stable de virus, l'apparition d'un nouveau variant peut d'abord entraîner une augmentation de la valeur KHILL. Ce pic représente un moment où les anciens et nouveaux variants coexistent dans des populations similaires. Cependant, si le nouveau variant devient dominant, la valeur KHILL chutera, indiquant moins de types de génomes présents dans la population.

Pour des exemples impliquant de plus grands groupes, comme ceux collectés à partir des eaux usées, les scientifiques peuvent comparer les dernières données avec des échantillons plus anciens. Cette comparaison peut éclairer comment la variété génomique change au fil des jours. S'il y a un changement significatif dans les données, cela pourrait indiquer qu'un nouveau variant est en train d'émerger.

Comprendre les Variants et les Pangenomes

Lors d'une épidémie comme celle du COVID-19, il est crucial de comprendre comment de nouveaux variants apparaissent et affectent la population. À mesure que des variants se manifestent, ils tendent à augmenter la diversité d'information au sein du matériel génétique présent. Cet aspect est important, car lorsqu'un variant devient commun, cela conduit souvent à une baisse de la diversité des génomes.

L'approche KHILL peut également s'étendre à la compréhension des pangenomes, qui se réfère à tout le matériel génétique présent dans une espèce. Au lieu de se concentrer uniquement sur les gènes, KHILL permet aux scientifiques de considérer des séquences uniques d'information, offrant une image plus claire de la manière dont le contenu génétique d'une espèce évolue au fil du temps et des lieux.

Cependant, analyser des données génomiques peut être difficile en raison du volume énorme d'informations. La méthode KHILL vise à simplifier ce processus en réduisant le nombre de comparaisons nécessaires pour analyser les séquences génétiques sans perdre de détails importants. Cette approche repose sur des croquis de chaînes, qui peuvent rapidement refléter les données globales sans plonger dans chaque génome individuel.

Applications Pratiques

Au Royaume-Uni, les scientifiques ont efficacement utilisé KHILL pour suivre les variants du COVID-19 tout au long de la pandémie. Les données collectées ont montré des pics clairs dans les valeurs KHILL qui correspondent à l'émergence de variants significatifs tels qu'Alpha, Delta et Omicron. Ces pics révèlent comment le paysage génétique du virus change au fil du temps et fournissent des aperçus sur le moment où les variants commencent à dominer la population.

Dans d'autres régions, comme aux États-Unis et en Afrique du Sud, KHILL a également été efficace pour surveiller différents variants. Bien que chaque zone montre des variations dans la façon dont la pandémie s'est déroulée, les métriques KHILL aident à maintenir une clarté sur le moment où de nouveaux variants émergent. Même lorsque les données sont bruyantes ou rares, KHILL fournit toujours des aperçus précieux.

Surveillance des Eaux Usées

Alors que l'approche de la surveillance du COVID-19 a évolué, les scientifiques ont commencé à utiliser des échantillons d'eaux usées pour suivre la présence virale dans les communautés. En appliquant le métrique KHILL à ces échantillons groupés, les scientifiques peuvent observer des changements significatifs dans l'information génétique, ce qui peut signaler l'arrivée de nouveaux variants dans une population. Cette méthode permet une surveillance continue de la dynamique virale sans avoir besoin de rassembler des échantillons de chaque cas individuel.

L'approche KHILL pour l'analyse des eaux usées offre un outil puissant pour la surveillance de la santé publique. Elle permet aux autorités d'obtenir des aperçus sur la propagation d'une maladie avant qu'elle ne se manifeste complètement dans la population, ce qui peut guider des interventions opportunes.

Anticiper les Changements

KHILL s'est avéré être un bon indicateur des changements à venir dans les populations virales. En surveillant de près les données, les scientifiques peuvent voir des augmentations potentielles de nouveaux variants même avant qu'ils ne deviennent largement reconnus. Cette capacité à détecter des changements subtils dans la diversité peut fournir des avertissements cruciaux sur des menaces pour la santé publique.

Par exemple, au fur et à mesure que l'émergence de nouveaux variants est anticipée, les scientifiques peuvent utiliser la courbe KHILL pour informer les politiques de santé publique ou les mesures préventives. Cela pourrait signifier ajuster des stratégies en fonction des tendances observées dans la diversité génétique, aidant ainsi les communautés à réagir plus efficacement à la situation évolutive.

Conclusion

Le métrique KHILL représente une avancée significative dans la façon dont les scientifiques mesurent et suivent la diversité génétique dans les populations. En se concentrant sur la diversité de l'information, cette méthode améliore notre compréhension de la façon dont les variants émergent et dominent au sein des communautés. Avec des applications tant dans les contextes cliniques que dans les analyses environnementales, KHILL a le potentiel d'informer les stratégies de santé publique et d'améliorer les réponses aux épidémies en cours et futures.

Alors que les scientifiques continuent de peaufiner cette approche, elle jouera probablement un rôle essentiel dans la surveillance génomique et l'étude des changements évolutifs dans diverses espèces. Les aperçus obtenus grâce à KHILL aideront les responsables de la santé publique et les chercheurs à rester en avance sur les menaces émergentes, ouvrant la voie à une gestion et un contrôle des maladies plus efficaces.

Source originale

Titre: Hill numbers at the edge of a pandemic: rapid SARS-COV2 surveillance using clinical, pooled, or wastewater sequence as a sensor for population change

Résumé: The COVID-19 pandemic has highlighted the critical role of genomic surveillance for guiding policy and control strategies. Timeliness is key, but rapid deployment of existing surveillance is difficult because most approaches are based on sequence alignment and phylogeny. Millions of SARS-CoV-2 genomes have been assembled, the largest collection of sequence data in history. Phylogenetic methods are ill equipped to handle this sheer scale. We introduce a pan-genomic measure that examines the information diversity of a k-mer library drawn from a countrys complete set of clinical, pooled, or wastewater sequence. Quantifying diversity is central to ecology. Studies that measure the diversity of various environments increasingly use the concept of Hill numbers, or the effective number of species in a sample, to provide a simple metric for comparing species diversity across environments. The more diverse the sample, the higher the Hill number. We adopt this ecological approach and consider each k-mer an individual and each genome a transect in the pan-genome of the species. Applying Hill numbers in this way allows us to summarize the temporal trajectory of pandemic variants by collapsing each days assemblies into genomic equivalents. For pooled or wastewater sequence, we instead compare sets of days represented by survey sequence divorced from individual infections. We do both calculations quickly, without alignment or trees, using modern genome sketching techniques to accommodate millions of genomes or terabases of raw sequence in one condensed view of pandemic dynamics. Using data from the UK, USA, and South Africa, we trace the ascendance of new variants of concern as they emerge in local populations months before these variants are named and added to phylogenetic databases. Using data from San Diego wastewater, we monitor these same population changes from raw, unassembled sequence. This history of emerging variants senses all available data as it is sequenced, intimating variant sweeps to dominance or declines to extinction at the leading edge of the COVID19 pandemic. The surveillance technique we introduce in a SARS-CoV-2 context here can operate on genomic data generated over any pandemic time course and is organism agnostic. One-Sentence SummaryWe implement pathogen surveillance from sequence streams in real-time, requiring neither references or phylogenetics. Main TextThe COVID-19 pandemic has been fueled by the repeated emergence of SARS-CoV-2 variants, a few of which have propelled worldwide, asynchronous waves of infection(1). First arising in late 2019 in Wuhan, China, the spread of the D614G mutation led to sequential waves of Variants of Concern (VOC) about nine months later, significantly broadening the pandemics reach and challenging concerted efforts at its control (2). Beta and Gamma variants drove regional resurgences, but Alpha, Delta and Omicron occurred globally (3)(4). The advent of each variant led to the near extinction of the population within which it arose (5). The architecture of this pandemic is therefore marked by periods of transition, tipping a population towards an emerging variant of concern followed by its near complete sweep to dominance. At the pandemics outset, epidemiological work was focused on transmission networks, but SARS-CoV-2s high rates of infection quickly outstripped our ability to trace it(2). When it became clear that even focused global efforts would only characterize a fraction of infections, researchers turned to phylodynamic approaches to understand SARS-CoV-2s population structure(6)(7). Genomics was at the center of this effort. Rapid sequencing and whole genome phylogeny updated in quasi real time enabled epidemic surveillance that was a few weeks to a month behind the edge of the pandemic curve(8). In a crisis of COVID-19s scale and speed, eliminating this analysis lag can mean the difference between timely, reasonable public health response and failure to understand and anticipate the diseases next turn. Phylodynamics is predicated on genetic variation. Without variation, phylogenetic approaches yield star trees with no evolutionary structure. The high mutation rate among pathogens, especially among RNA viruses like SARS-CoV2, ensures the accumulation of sufficient diversity to reconstruct pathogen evolutionary history even over the relatively short time scales that comprise an outbreak. But as a genomic surveillance technique, phylodynamics is costly. Tools like Nextstrain align genomes, reconstruct phylogenies, and date internal nodes using Bayesian and likelihood approaches(9). These techniques are among the most computationally expensive algorithms in bioinformatics. Intractable beyond a few thousand sequences, phylodynamic approaches must operate on population subsamples, and subsamples are subject to the vagaries of data curation. More importantly, phylodynamic approaches are yoked to references. Most techniques are ill-equipped to respond to evolutionary novelty. We argue that genomic surveillance should herald the appearance of previously unseen variants without having to resort to comparison with assembled and curated genomes, and the lag between variant discovery and a database update is often months. Surveillance is currently hamstrung by the historical bias inherent to marker-based analysis. The existing pandemic toolbox therefore lacks unbiased approaches to quickly model the population genomics of all sequences available. We propose a method that summarizes the temporal trajectory of pandemic variants by collapsing each days assemblies into a single metric. In the case of pooled or wastewater sequence, this same metric is repurposed to measure survey sequence compression across days. Our method does not subsample, perform alignments, or build trees, but still describes the major arcs of the COVID19 pandemic. Our inspiration comes from long standing definitions of diversity used in ecology. We employ Hill numbers (10)(11), extensions of Shannons theory of information entropy(12). Rather than using these numbers to compute traditional ecological quantities like the diversity of species in an area, we use them to compute the diversity of genomic information. For example, we envision each unique k-mer a species and each genome a transect sampled from the pan-genome. Applying Hill numbers in this way allows us to measure a collection of genomes in terms of genomic equivalents, or a set of sequence pools as the effective number of sets. We show that tracing a pandemic curve with these new metrics enables the use of sequence as a real time sensor, tracking both the emergence of variants over time and the extent of their spread.

Auteurs: Apurva Narechania, D. Bobo, K. Deitz, R. DeSalle, P. Planet, B. Mathema

Dernière mise à jour: 2023-10-06 00:00:00

Langue: English

Source URL: https://www.medrxiv.org/content/10.1101/2022.06.23.22276807

Source PDF: https://www.medrxiv.org/content/10.1101/2022.06.23.22276807.full.pdf

Licence: https://creativecommons.org/licenses/by-nc/4.0/

Changements: Ce résumé a été créé avec l'aide de l'IA et peut contenir des inexactitudes. Pour obtenir des informations précises, veuillez vous référer aux documents sources originaux dont les liens figurent ici.

Merci à medrxiv pour l'utilisation de son interopérabilité en libre accès.

Plus d'auteurs

Articles similaires