Avanços nas Técnicas de Sequenciamento de Genoma
Novos métodos melhoram o sequenciamento do genoma, ajudando na identificação de organismos e em estudos ecológicos.
― 10 min ler
Índice
- Desafios no Sequenciamento de Genomas
- Melhorando a Separação de Sequências
- Novas Ferramentas para Detecção de Cobiontes
- Visualização dos Componentes da Sequência
- A Importância da Composição na Análise de Sequências
- Painel Interativo para Exploração
- Comparando Diferentes Métodos de Detecção
- Robustez dos Métodos Baseados em Composição
- Avaliando a Cobertura para Controle de Qualidade
- Eficiência Computacional e Escalabilidade
- Conclusão
- Fonte original
- Ligações de referência
Desenvolvimentos recentes na tecnologia de sequenciamento de genoma estão melhorando nossa capacidade de criar Genomas de referência para vários organismos. Isso é especialmente importante para espécies que ainda não foram muito sequenciadas. O objetivo é aprender mais sobre como essas espécies evoluíram e seus papéis em diferentes ecossistemas.
Quando os cientistas coletam amostras de organismos selvagens, essas amostras geralmente incluem não apenas o material genético da espécie-alvo, mas também DNA de outras fontes. Esse DNA adicional pode vir de organelas, pequenos organismos que vivem dentro delas, ou até mesmo contaminantes do ambiente. Essa mistura de material genético pode dificultar a montagem de um genoma claro da espécie-alvo. Muitos genomas publicados têm problemas de contaminação, o que pode levar a conclusões erradas em estudos biológicos.
Por outro lado, esses dados mistos também podem oferecer uma chance de estudar as relações ecológicas entre diferentes organismos. Com as ferramentas computacionais certas, conseguimos criar genomas de alta qualidade para esses outros organismos, incluindo aqueles que são difíceis de cultivar em laboratórios.
Iniciativas como o Projeto Darwin Tree of Life têm como objetivo sequenciar 70.000 genomas de organismos eucariotos, que são formas de vida complexas. Esse projeto oferece uma oportunidade única de estudar a evolução de várias espécies e como elas interagem entre si. Os dados de alta qualidade produzidos devem ajudar os pesquisadores a separar sequências de diferentes fontes de forma mais eficaz. A montagem aprimorada dos genomas garante que as sequências possam ser classificadas com mais precisão, o que é importante para entender a biologia de vários organismos.
Desafios no Sequenciamento de Genomas
Métodos tradicionais de seleção de sequências genéticas dependem da comparação com bancos de dados existentes. Infelizmente, esses bancos de dados também podem conter sequências contaminadas, levando a atribuições erradas. Além disso, pode não existir uma referência relacionada para muitos organismos, especialmente aqueles que não foram amplamente estudados. Esse problema é mais pronunciado em sequências que se divergiram significativamente ao longo do tempo. As sequências de organismos multicelulares, por exemplo, costumam ter um número baixo de locais estáveis que podem ser usados para classificação, tornando mais difícil atribuí-las com precisão.
Técnicas de aprendizado de máquina, como classificador de rede neural supervisionada, enfrentam limitações semelhantes. Esses modelos dependem de sequências previamente conhecidas para treinamento, tornando seu desempenho em amostras desconhecidas imprevisível.
Melhorando a Separação de Sequências
Para diferenciar de forma confiável as sequências, mesmo quando os bancos de dados estão em falta, os cientistas estão analisando as diferenças inerentes na Composição de sequências entre organismos. Uma ferramenta, o BlobToolKit, permite que os pesquisadores visualizem e extraiam grupos de sequências com base no conteúdo de GC e Cobertura variados. Embora o conteúdo de GC seja útil, nem sempre é suficiente para distinguir diferentes organismos.
Os cientistas também podem usar substrings curtas, conhecidas como k-mers, para ordenação não supervisionada. Separando sequências com base na frequência com que k-mers específicos aparecem e sua cobertura, os pesquisadores estabeleceram métodos que funcionam bem em metagenômica. No entanto, a eficácia das ferramentas atuais em sequências misturadas que incluem organismos com estruturas internas diversas ainda está sendo avaliada.
Outra área que recebeu menos foco foi o agrupamento de leituras de sequência não montadas com base na composição. Ao avaliar rapidamente o conteúdo de um conjunto de leituras, os pesquisadores podem determinar a qualidade de uma amostra antes da montagem. Isso inclui checar se há cobertura suficiente do genoma-alvo. Embora sequências longas e precisas, como as produzidas por tecnologias mais novas, sejam tentadoras de tratar como segmentos menores, o volume de leituras pode levar a obstáculos computacionais.
Novas Ferramentas para Detecção de Cobiontes
Neste trabalho, foi introduzido um método inovador para detectar material genético adicional e contaminantes em amostras através de representações bidimensionais da composição de k-mer de sequências. Um Variational Autoencoder (VAE) foi implementado para projetar contagens de tetranucleotídeos em duas dimensões.
Os VAEs têm sido eficazes em várias aplicações biológicas, incluindo a análise de populações e a previsão de funções de proteínas. Ao adicionar anotações às representações bidimensionais aprendidas pelo VAE, os pesquisadores podem destacar diferenças na composição entre sequências de várias fontes. Um método baseado em k-mer também foi desenvolvido para estimar a cobertura da sequência de forma precisa.
Para tornar o processo interativo, um painel foi criado que permite que os usuários explorem os potenciais organismos presentes em uma amostra. Em vez de tentar classificar ou separar sequências explicitamente, essas ferramentas servem para melhorar a identificação de cobiontes.
Visualização dos Componentes da Sequência
Visualizar uma coleção de sequências juntas oferece uma visão geral dos componentes encontrados em uma amostra. Cada ponto na visualização representa uma sequência individual, com cores indicando diferentes fontes ou rótulos taxonômicos.
Usando dados de 204 espécies de borboletas e mariposas sequenciadas através do Projeto Darwin Tree of Life, o impacto dessa abordagem integrada para detecção de cobiontes foi demonstrado. Os resultados estão alinhados com aqueles de métodos tradicionais de verificação de contaminação. A abordagem também teve sucesso semelhante com outros organismos, como peixes, algas verdes e plantas. A capacidade do VAE de lidar com grandes conjuntos de dados melhora significativamente a análise das informações genômicas.
A eficácia do método reside em sua capacidade de identificar cobiontes quando métodos tradicionais baseados em referência costumam falhar, especialmente em casos onde não há referências próximas existentes.
A Importância da Composição na Análise de Sequências
A principal medida da composição de sequências examinada neste trabalho são as contagens de tetranucleotídeos. Enquanto outros tamanhos de k-mer poderiam ser usados, um tamanho de quatro proporciona um equilíbrio entre eficiência computacional e separação eficaz de sequências em várias amostras.
Calcular essas contagens de tetranucleotídeos pode ser feito de forma eficiente, dependendo de uma implementação específica de software. Esse método é adequado até mesmo para conjuntos de dados que consistem em milhões de leituras de sequenciamento.
Para visualizar dados complexos através do VAE, o encoder reduz as dimensões dos vetores de contagem de tetranucleotídeos para duas dimensões. Como resultado, sequências com composição semelhante ficam mais próximas umas das outras neste espaço latente. O decoder, então, tenta reconstruir as sequências originais a partir dessas representações reduzidas, tornando-o robusto a ruídos e erros.
Pesquisas mostram que os VAEs costumam fornecer uma separação mais clara de classes do que métodos tradicionais como análise de componentes principais. Eles também exigem menos poder computacional do que outras técnicas de redução de dimensionalidade, o que é benéfico para lidar com grandes conjuntos de dados.
Painel Interativo para Exploração
Um painel interativo foi projetado para ajudar os pesquisadores a filtrar e explorar dados de forma eficaz. Essa interface permite a visualização de sequências com base em várias características, incluindo densidade de codificação estimada e classificações taxonômicas. Os usuários também podem ampliar áreas de interesse, visualizar estatísticas e realizar “verificações rápidas” de clusters de leitura através de consultas BLAST.
Essa funcionalidade é crucial para avaliar rapidamente a composição das amostras e identificar possíveis problemas com contaminação ou sequências-alvo ausentes.
Comparando Diferentes Métodos de Detecção
Para avaliar a eficácia das estratégias baseadas na composição na detecção de cobiontes e contaminantes, os pesquisadores compararam com que frequência esse método teve sucesso em identificar organismos reportados por outras ferramentas estabelecidas usadas em processos de montagem de genoma e curadoria de dados.
Muitos dos organismos identificados combinaram bem com aqueles registrados por métodos tradicionais, embora alguns casos destacassem que a abordagem baseada em composição conseguiu detectar organismos que ferramentas baseadas em referência tinham perdido.
Ao visualizar leituras perto de picos em histogramas bidimensionais, alguns organismos foram identificados com sucesso. No entanto, esse método automatizado foi menos confiável para espécies que não formaram clusters distintos, mostrando limitações inerentes às abordagens baseadas em referência.
Robustez dos Métodos Baseados em Composição
A capacidade de detectar cobiontes usando a abordagem baseada em composição é particularmente útil ao lidar com organismos que não têm representação suficiente em bancos de dados. Isso foi ilustrado por casos de microsporídios, que costumam ser difíceis de classificar devido a recursos genômicos limitados.
Ao integrar várias fontes de informação, os pesquisadores podem melhorar a identificação de cobiontes. Por exemplo, mesmo quando métodos baseados em referência falharam em identificar leituras pertencentes a certos organismos, visualizar os clusters de sequência frequentemente revelou insights valiosos sobre sua composição.
Padrões semelhantes foram observados em estudos de outros organismos, destacando que essa abordagem pode se estender além de insetos para vários táxons, mesmo entre organismos que estão muito distantes evolutivamente.
Avaliando a Cobertura para Controle de Qualidade
Em casos onde a cobertura estimada varia significativamente entre sequências-alvo e não-alvo, visualizar essa cobertura pode ajudar a identificar contaminantes. Histogramas de cobertura costumam resumir a cobertura de k-mer e podem indicar se um sequenciamento suficiente foi alcançado para uma montagem bem-sucedida.
Ao integrar informações de cobertura com representações bidimensionais da composição de leituras, os pesquisadores podem confirmar melhor a identidade dos organismos presentes em uma amostra. Essa combinação pode fornecer um contexto valioso para avaliar a qualidade da amostra.
Eficiência Computacional e Escalabilidade
O esforço computacional necessário para reunir contagens de tetranucleotídeos escala bem com o tamanho dos conjuntos de dados de leitura. Mesmo conjuntos de dados grandes podem ser processados de forma eficiente, com ferramentas disponíveis para ajudar na análise e interpretação dos resultados. Embora existam demandas computacionais mais altas para conjuntos de dados mais extensos, os métodos apresentados são projetados para permanecer gerenciáveis para pesquisadores.
Treinar o VAE exige recursos de memória significativos, especialmente para conjuntos de dados maiores. No entanto, técnicas existem para otimizar o uso da memória, permitindo que os métodos sejam implementados em hardware padrão.
Conclusão
Este trabalho ilustra o valor de usar representações bidimensionais da composição de sequências para identificar e diferenciar sequências de várias fontes dentro de conjuntos de dados genômicos de leitura longa. Essa técnica é especialmente útil para estudar organismos que não têm representação adequada em bancos de dados existentes.
Integrar dados de composição com rótulos taxonômicos pode melhorar a capacidade de rastrear sequências de organismos específicos, sinalizando aquelas que não foram classificadas com precisão por métodos tradicionais. À medida que o interesse em sequenciar organismos diversos cresce, essas ferramentas podem ajudar os pesquisadores a descobrir genomas que muitas vezes são negligenciados e melhorar nossa compreensão das complexas relações biológicas.
Título: Disentangling Cobionts and Contamination in Long-Read Genomic Data using Sequence Composition
Resumo: The recent acceleration in genome sequencing targeting previously unexplored parts of the tree of life presents computational challenges. Samples collected from the wild often contain sequences from several organisms, including the target, its cobionts, and contaminants. Effective methods are therefore needed to separate sequences. Though advances in sequencing technology make this task easier, it remains difficult to taxonomically assign sequences from eukaryotic taxa that are not well-represented in databases. Therefore, reference-based methods alone are insufficient. Here, I examine how we can take advantage of differences in sequence composition between organisms to identify symbionts, parasites and contaminants in samples, with minimal reliance on reference data. To this end, I explore data from the Darwin Tree of Life project, including hundreds of high-quality HiFi read sets from insects. Visualising two-dimensional representations of read tetranucleotide composition learned by a Variational Autoencoder can reveal distinct components of a sample. Annotating the embeddings with additional information, such as coding density, estimated coverage, or taxonomic labels allows rapid assessment of the contents of a dataset. The approach scales to millions of sequences, making it possible to explore unassembled read sets, even for large genomes. Combined with interactive visualisation tools, it allows a large fraction of cobionts reported by reference-based screening to be identified. Crucially, it also facilitates retrieving genomes for which suitable reference data are absent.
Autores: Claudia C Weber
Última atualização: 2024-06-03 00:00:00
Idioma: English
Fonte URL: https://www.biorxiv.org/content/10.1101/2024.05.30.596622
Fonte PDF: https://www.biorxiv.org/content/10.1101/2024.05.30.596622.full.pdf
Licença: https://creativecommons.org/licenses/by/4.0/
Alterações: Este resumo foi elaborado com a assistência da AI e pode conter imprecisões. Para obter informações exactas, consulte os documentos originais ligados aqui.
Obrigado ao biorxiv pela utilização da sua interoperabilidade de acesso aberto.