Rastreamento da Diversidade Genética com KHILL
KHILL ajuda cientistas a monitorar a diversidade genética e as mudanças de variantes em populações.
― 7 min ler
Índice
Para entender quão diverso é um grupo de seres vivos, os cientistas muitas vezes usam métodos especiais. Esses métodos ajudam a pegar uma enorme quantidade de informações genéticas e resumir tudo isso em um único número simples. Esse número pode ajudar a comparar a diversidade de espécies em diferentes ambientes. Uma abordagem comum é chamada de número efetivo de espécies, que é uma forma de medir quantas espécies diferentes estão presentes em uma amostra.
Quando os cientistas analisam os dados, eles conseguem ver com que frequência cada espécie aparece. À medida que fazem isso, percebem que o número muda dependendo de quão diversificada a amostra é. Uma amostra diversificada terá um número maior, enquanto uma amostra com poucas espécies mostrará um número menor. Essa ideia também é útil fora da biologia. Por exemplo, na área de linguagem e comunicação, um número parecido é usado chamado perplexidade, que ajuda a medir a complexidade dos modelos de linguagem.
Os cientistas estão interessados em comparar diferentes amostras para aprender mais sobre elas. Por exemplo, eles analisam quão bem um estudo foi concebido ou quão complicado pode ser um ecossistema. Essa comparação muitas vezes envolve olhar para algo chamado diversidade beta. Essa medida ajuda os cientistas a descobrir quão diferentes são os vários grupos locais de espécies entre si.
Número Efetivo de Comunidades
O número efetivo de comunidades é uma ferramenta importante para entender quão diversa é um grupo de espécies. Se muitas espécies compartilham características similares e estão distribuídas de maneira uniforme, o número efetivo de comunidades será baixo. Por outro lado, se uma amostra for muito diversificada, ela terá um número efetivo maior. Esse conceito é baseado em ideias da teoria da informação, que lida com como a informação é medida e entendida.
Adaptando essas ideias, também podemos estimar o número efetivo de genomas em um conjunto de dados. Essa nova medida é chamada de KHILL. Por exemplo, ao analisar amostras clínicas ou grupos de genomas, os cientistas agora conseguem acompanhar a diversidade de informações relacionada aos genomas presentes.
Se considerarmos um conjunto de sequências idênticas, a medida KHILL mostrará um valor de 1. No entanto, quando nenhuma sequência sobrepõe, ela atinge seu número máximo, refletindo todos os conjuntos distintos incluídos. Essa adaptabilidade permite que os cientistas monitorem as mudanças nas populações ao longo do tempo de maneira eficaz.
Monitorando Mudanças Populacionais
Com a métrica KHILL, os cientistas podem acompanhar como a composição genética das populações muda ao longo do tempo. Por exemplo, em uma comunidade estável de vírus, o surgimento de uma nova variante pode levar a um aumento no valor de KHILL a princípio. Esse pico representa um momento em que tanto as Variantes mais antigas quanto as novas coexistem em populações semelhantes. No entanto, se a nova variante se tornar dominante, o valor de KHILL cairia, indicando que há menos tipos de genomas presentes na população.
Para exemplos envolvendo grupos maiores, como os coletados de águas residuais, os cientistas podem comparar os dados mais recentes com amostras anteriores. Essa comparação pode iluminar como a variedade genômica está mudando ao longo dos dias. Se houver uma mudança significativa nos dados, isso pode indicar que uma nova variante está surgindo.
Pangenomas
Entendendo Variantes eDurante um surto como o COVID-19, é crucial entender como novas variantes surgem e afetam a população. À medida que variantes aparecem, elas tendem a aumentar a diversidade de informações dentro do material genético presente. Esse aspecto é importante porque, quando uma variante se torna comum, muitas vezes leva a uma diminuição na diversidade dos genomas.
A abordagem KHILL também pode ser estendida para entender pangenomas, que se referem a todo o material genético presente em uma espécie. Em vez de se concentrar apenas nos genes, o KHILL permite que os cientistas considerem sequências únicas de informação, proporcionando uma visão mais clara de como o conteúdo genético em uma espécie muda ao longo do tempo e em diferentes locais.
No entanto, analisar dados genômicos pode ser desafiador por causa do volume imenso de informações. O método KHILL visa simplificar esse processo reduzindo o número de comparações necessárias para analisar sequências genéticas sem perder detalhes importantes. Essa abordagem depende de esboços de strings, que podem refletir rapidamente os dados gerais sem entrar em cada genoma individual.
Aplicações no Mundo Real
No Reino Unido, os cientistas usaram efetivamente o KHILL para rastrear variantes do COVID-19 ao longo da pandemia. Os dados coletados mostraram picos claros nos valores de KHILL que se alinharam com o surgimento de variantes significativas, como Alpha, Delta e Omicron. Esses picos revelam como a paisagem genética do vírus muda ao longo do tempo e fornecem insights sobre quando as variantes começam a dominar a população.
Em outras regiões, como os Estados Unidos e a África do Sul, o KHILL também foi eficaz no monitoramento de diferentes variantes. Embora cada área mostre variações em como a pandemia se desenrolou, as métricas KHILL ajudam a manter clareza sobre quando novas variantes surgem. Mesmo quando os dados são barulhentos ou esparsos, o KHILL ainda oferece insights valiosos.
Vigilância de Águas Residuais
À medida que a abordagem para monitorar o COVID-19 evoluiu, os cientistas começaram a usar amostras de águas residuais para rastrear a presença viral nas comunidades. Ao aplicar a métrica KHILL a essas amostras agrupadas, os cientistas podem observar mudanças significativas nas informações genéticas, o que pode sinalizar a chegada de novas variantes em uma população. Esse método permite o monitoramento contínuo da dinâmica do vírus sem a necessidade de coletar amostras de cada caso individual.
A abordagem KHILL para análise de águas residuais oferece uma ferramenta poderosa para a vigilância da saúde pública. Ela permite que as autoridades obtenham insights sobre a propagação de uma doença antes que ela se manifeste totalmente na população, potencialmente orientando intervenções em tempo hábil.
Antecipando Mudanças
O KHILL tem se mostrado um bom indicador de mudanças futuras nas populações virais. Ao monitorar os dados de perto, os cientistas podem ver possíveis aumento em novas variantes mesmo antes de se tornarem amplamente reconhecidas. Essa capacidade de detectar mudanças sutis na diversidade pode fornecer alertas importantes sobre ameaças à saúde pública.
Por exemplo, à medida que se antecipa o surgimento de novas variantes, os cientistas podem usar a curva KHILL para informar políticas de saúde pública ou medidas preventivas. Isso pode significar ajustar estratégias com base nas tendências observadas em diversidade genética, ajudando as comunidades a responderem de forma mais eficaz à situação em evolução.
Conclusão
A métrica KHILL representa um avanço significativo em como os cientistas medem e rastreiam a diversidade genética nas populações. Ao focar na diversidade de informações, esse método melhora nosso entendimento de como variantes surgem e dominam dentro das comunidades. Com aplicações tanto em ambientes clínicos quanto em análises ambientais, o KHILL tem o potencial de informar estratégias de saúde pública e melhorar respostas a surtos em andamento e futuros.
À medida que os cientistas continuam a aprimorar essa abordagem, ela provavelmente desempenhará um papel essencial na vigilância genômica e no estudo das mudanças evolutivas em várias espécies. As percepções obtidas com o KHILL ajudarão oficiais de saúde pública e pesquisadores a se manterem à frente das ameaças emergentes, abrindo caminho para um gerenciamento e controle mais eficazes das doenças.
Título: Hill numbers at the edge of a pandemic: rapid SARS-COV2 surveillance using clinical, pooled, or wastewater sequence as a sensor for population change
Resumo: The COVID-19 pandemic has highlighted the critical role of genomic surveillance for guiding policy and control strategies. Timeliness is key, but rapid deployment of existing surveillance is difficult because most approaches are based on sequence alignment and phylogeny. Millions of SARS-CoV-2 genomes have been assembled, the largest collection of sequence data in history. Phylogenetic methods are ill equipped to handle this sheer scale. We introduce a pan-genomic measure that examines the information diversity of a k-mer library drawn from a countrys complete set of clinical, pooled, or wastewater sequence. Quantifying diversity is central to ecology. Studies that measure the diversity of various environments increasingly use the concept of Hill numbers, or the effective number of species in a sample, to provide a simple metric for comparing species diversity across environments. The more diverse the sample, the higher the Hill number. We adopt this ecological approach and consider each k-mer an individual and each genome a transect in the pan-genome of the species. Applying Hill numbers in this way allows us to summarize the temporal trajectory of pandemic variants by collapsing each days assemblies into genomic equivalents. For pooled or wastewater sequence, we instead compare sets of days represented by survey sequence divorced from individual infections. We do both calculations quickly, without alignment or trees, using modern genome sketching techniques to accommodate millions of genomes or terabases of raw sequence in one condensed view of pandemic dynamics. Using data from the UK, USA, and South Africa, we trace the ascendance of new variants of concern as they emerge in local populations months before these variants are named and added to phylogenetic databases. Using data from San Diego wastewater, we monitor these same population changes from raw, unassembled sequence. This history of emerging variants senses all available data as it is sequenced, intimating variant sweeps to dominance or declines to extinction at the leading edge of the COVID19 pandemic. The surveillance technique we introduce in a SARS-CoV-2 context here can operate on genomic data generated over any pandemic time course and is organism agnostic. One-Sentence SummaryWe implement pathogen surveillance from sequence streams in real-time, requiring neither references or phylogenetics. Main TextThe COVID-19 pandemic has been fueled by the repeated emergence of SARS-CoV-2 variants, a few of which have propelled worldwide, asynchronous waves of infection(1). First arising in late 2019 in Wuhan, China, the spread of the D614G mutation led to sequential waves of Variants of Concern (VOC) about nine months later, significantly broadening the pandemics reach and challenging concerted efforts at its control (2). Beta and Gamma variants drove regional resurgences, but Alpha, Delta and Omicron occurred globally (3)(4). The advent of each variant led to the near extinction of the population within which it arose (5). The architecture of this pandemic is therefore marked by periods of transition, tipping a population towards an emerging variant of concern followed by its near complete sweep to dominance. At the pandemics outset, epidemiological work was focused on transmission networks, but SARS-CoV-2s high rates of infection quickly outstripped our ability to trace it(2). When it became clear that even focused global efforts would only characterize a fraction of infections, researchers turned to phylodynamic approaches to understand SARS-CoV-2s population structure(6)(7). Genomics was at the center of this effort. Rapid sequencing and whole genome phylogeny updated in quasi real time enabled epidemic surveillance that was a few weeks to a month behind the edge of the pandemic curve(8). In a crisis of COVID-19s scale and speed, eliminating this analysis lag can mean the difference between timely, reasonable public health response and failure to understand and anticipate the diseases next turn. Phylodynamics is predicated on genetic variation. Without variation, phylogenetic approaches yield star trees with no evolutionary structure. The high mutation rate among pathogens, especially among RNA viruses like SARS-CoV2, ensures the accumulation of sufficient diversity to reconstruct pathogen evolutionary history even over the relatively short time scales that comprise an outbreak. But as a genomic surveillance technique, phylodynamics is costly. Tools like Nextstrain align genomes, reconstruct phylogenies, and date internal nodes using Bayesian and likelihood approaches(9). These techniques are among the most computationally expensive algorithms in bioinformatics. Intractable beyond a few thousand sequences, phylodynamic approaches must operate on population subsamples, and subsamples are subject to the vagaries of data curation. More importantly, phylodynamic approaches are yoked to references. Most techniques are ill-equipped to respond to evolutionary novelty. We argue that genomic surveillance should herald the appearance of previously unseen variants without having to resort to comparison with assembled and curated genomes, and the lag between variant discovery and a database update is often months. Surveillance is currently hamstrung by the historical bias inherent to marker-based analysis. The existing pandemic toolbox therefore lacks unbiased approaches to quickly model the population genomics of all sequences available. We propose a method that summarizes the temporal trajectory of pandemic variants by collapsing each days assemblies into a single metric. In the case of pooled or wastewater sequence, this same metric is repurposed to measure survey sequence compression across days. Our method does not subsample, perform alignments, or build trees, but still describes the major arcs of the COVID19 pandemic. Our inspiration comes from long standing definitions of diversity used in ecology. We employ Hill numbers (10)(11), extensions of Shannons theory of information entropy(12). Rather than using these numbers to compute traditional ecological quantities like the diversity of species in an area, we use them to compute the diversity of genomic information. For example, we envision each unique k-mer a species and each genome a transect sampled from the pan-genome. Applying Hill numbers in this way allows us to measure a collection of genomes in terms of genomic equivalents, or a set of sequence pools as the effective number of sets. We show that tracing a pandemic curve with these new metrics enables the use of sequence as a real time sensor, tracking both the emergence of variants over time and the extent of their spread.
Autores: Apurva Narechania, D. Bobo, K. Deitz, R. DeSalle, P. Planet, B. Mathema
Última atualização: 2023-10-06 00:00:00
Idioma: English
Fonte URL: https://www.medrxiv.org/content/10.1101/2022.06.23.22276807
Fonte PDF: https://www.medrxiv.org/content/10.1101/2022.06.23.22276807.full.pdf
Licença: https://creativecommons.org/licenses/by-nc/4.0/
Alterações: Este resumo foi elaborado com a assistência da AI e pode conter imprecisões. Para obter informações exactas, consulte os documentos originais ligados aqui.
Obrigado ao medrxiv pela utilização da sua interoperabilidade de acesso aberto.