Simple Science

Ciência de ponta explicada de forma simples

# Biologia# Bioinformática

Nova Ferramenta Melhora a Montagem do Genoma Bacteriano

Hybracter automatiza a montagem do genoma bacteriano com mais precisão para plasmídeos.

― 7 min ler


Hybracter Melhora aHybracter Melhora aMontagem do Genomaprecisa de genomas bacterianos.Uma ferramenta poderosa para montagem
Índice

Nos últimos anos, os cientistas têm se concentrado em entender as bactérias reconstruindo seus Genomas completos. Um genoma é o conjunto total de material genético em um organismo. No entanto, até pouco tempo atrás, montar esses genomas do zero era considerado muito difícil e caro, especialmente para bactérias. Isso se devia, em grande parte, a métodos mais antigos de sequenciamento, que não conseguiam lidar com certas partes complicadas dos genomas, incluindo regiões com Sequências repetidas ou um conteúdo específico alto de GC (guanina-citosina).

Avanços na Tecnologia de Sequenciamento

Desde 2015, novas tecnologias surgiram que permitem que os pesquisadores montem genomas inteiros de forma mais eficiente. Esses métodos mais novos, conhecidos como tecnologias de sequenciamento de long-read, possibilitam que os cientistas criem genomas completos sem depender muito dos métodos mais antigos. Inicialmente, os pesquisadores começavam usando sequenciamento de short-read para construir uma estrutura básica do genoma e, em seguida, usavam a tecnologia de long-read para preencher as áreas mais complicadas.

Uma das ferramentas mais usadas nesse processo é um programa de linha de comando chamado Unicycler. Embora tenha sido eficaz, ainda existiam desafios, especialmente quando se tratava de garantir a precisão e tentar recuperar Plasmídeos, que são pequenos pedaços circulares de DNA que podem estar presentes em algumas bactérias.

A Necessidade de uma Ferramenta Melhor

Muitas ferramentas existentes para montar genomas bacterianos têm limitações. Elas costumam não conseguir lidar com a recuperação de plasmídeos de forma eficaz, o que pode levar a montagens de genomas incompletas ou incorretas. Além disso, algumas ferramentas ignoram fatores importantes, como a orientação do genoma e os avanços recentes em técnicas de polimento que melhoram a precisão.

Reconhecendo esses problemas, uma nova ferramenta chamada Hybracter foi desenvolvida. Essa ferramenta visa automatizar o processo de criar montagens de genomas bacterianos quase perfeitas usando uma abordagem de long-read primeiro. Ela permite que os usuários polam os genomas montados com reads longas e curtas ou usem apenas reads longas.

Como o Hybracter Funciona

O Hybracter emprega um fluxo de trabalho simples para juntar os genomas bacterianos. Inicialmente, ele pega sequências de long-read e as filtra para garantir que apenas os reads de melhor qualidade sejam mantidos. Adapters e contaminantes são removidos, e a qualidade das sequências de short-read restantes é verificada.

Depois de preparar os reads, o primeiro passo é montar as sequências de long-read. Se contigs de qualidade suficiente (sequências contínuas de DNA) forem obtidos, eles são marcados como completos. Se não atenderem ao comprimento necessário, a montagem é rotulada como incompleta.

Em seguida, se amostras completas forem reconhecidas, a ferramenta então direciona a montagem de plasmídeos usando um método codificado no Plassembler. Todas as amostras são polidas para melhorar sua precisão, com opções para especificar como esse polimento é feito com base nos dados de short-read disponíveis.

Foco no Polimento

Polir é uma parte essencial do processo de montagem. Isso refina o genoma montado para reduzir erros e melhorar a qualidade geral. Dependendo da profundidade dos dados de short-read, diferentes técnicas de polimento são aplicadas para garantir a preservação das informações mais precisas.

Se apenas long reads forem fornecidos, a ferramenta calcula a média do comprimento das sequências codificadoras na montagem para determinar a qualidade. A melhor rodada de polimento com base nas sequências codificadoras mais longas é escolhida como a saída final.

O Hybracter gera uma variedade de arquivos de saída, incluindo um resumo detalhado para cada genoma montado, juntamente com arquivos específicos para cromossomos e plasmídeos. Essa saída extensa ajuda os usuários a entender e acompanhar a qualidade de suas montagens.

Selecionando as Ferramentas Certas

Os desenvolvedores do Hybracter escolheram cuidadosamente quais programas incluir na ferramenta com base em sua precisão e velocidade. Para a montagem de long-read, o Flye foi selecionado devido à sua precisão superior em comparação com outras opções. O Medaka foi integrado como uma ferramenta de polimento porque melhora efetivamente a continuidade dos genomas montados.

Além disso, três programas independentes foram desenvolvidos especificamente para o Hybracter, incluindo Plassembler para montagem de plasmídeos, Dnaapler para reorientação de cromossomos e Pypolca para polimento de short-read. Coletivamente, esses programas trabalham juntos para melhorar a robustez do processo de montagem.

Comparando com Outras Ferramentas

Para destacar as vantagens do Hybracter, os pesquisadores realizaram uma série de testes comparando-o a outras ferramentas populares de montagem. Esse teste envolveu uma variedade de amostras bacterianas e teve como objetivo avaliar a precisão da recuperação de cromossomos e montagem de plasmídeos.

Os resultados mostraram que o Hybracter forneceu as montagens de cromossomos mais precisas em comparação com outras ferramentas. Ele produziu o menor número de erros, demonstrando sua eficácia na geração de sequências genômicas de alta qualidade.

O Hybracter também se destaca na recuperação de plasmídeos. Ele consistentemente superou outras ferramentas na identificação e montagem precisa de plasmídeos durante o processo de montagem do genoma.

A Importância de Montagens Precisos

Montagens genômicas precisas são essenciais para entender a biologia das bactérias. Elas podem esclarecer como as bactérias se comportam, evoluem e respondem a mudanças ambientais. Essa compreensão pode ser crítica em várias áreas, incluindo medicina, ciência ambiental e agricultura.

Por exemplo, na saúde, dados genômicos precisos podem ajudar a acompanhar a disseminação de genes de resistência a antibióticos entre populações bacterianas. Na saúde pública, pode auxiliar em investigações de surtos fornecendo informações genéticas precisas sobre as cepas bacterianas envolvidas.

Fluxo de Trabalho Simplificado para Eficiência

O Hybracter foi projetado com eficiência em mente. Graças à sua integração com o Snakemake-uma ferramenta de gerenciamento de fluxo de trabalho-o Hybracter pode escalar para lidar com inúmeras amostras de forma rápida e eficaz. Os usuários podem personalizar suas configurações para otimizar a alocação de recursos com base em sua configuração computacional, permitindo um processo de montagem sob medida.

Essa paralelização permite que os usuários executem várias montagens simultaneamente, reduzindo significativamente o tempo necessário para projetos de grande escala.

Enfrentando Desafios na Montagem

Embora o sequenciamento de long-read tenha trazido grandes avanços na montagem de genomas, desafios permanecem. Pequenos plasmídeos, por exemplo, são frequentemente difíceis de montar com precisão. No entanto, o Hybracter implementa algoritmos avançados para enfrentar esses desafios, garantindo melhores taxas de recuperação de pequenos plasmídeos em comparação com métodos anteriores.

Além disso, ao empregar uma abordagem de long-read primeiro, o Hybracter aproveita as forças das novas tecnologias de sequenciamento, facilitando a montagem de regiões genômicas complicadas.

Conclusão

Em resumo, o Hybracter representa um passo significativo no campo da montagem de genomas bacterianos. Ao combinar novas tecnologias de sequenciamento com processos de montagem refinados, ele fornece aos pesquisadores uma ferramenta poderosa para reconstruir genomas bacterianos com precisão, incluindo plasmídeos difíceis de recuperar.

Essa ferramenta promete aprimorar nossa compreensão da genética microbiana e contribuir para pesquisas em saúde, ecologia e agricultura. À medida que o campo continua a evoluir, é provável que ferramentas como o Hybracter desempenhem um papel cada vez mais importante na formação de nossa compreensão do mundo microscópico.

Fonte original

Título: Hybracter: Enabling Scalable, Automated, Complete and Accurate Bacterial Genome Assemblies

Resumo: Improvements in the accuracy and availability of long-read sequencing mean that complete bacterial genomes are now routinely reconstructed using hybrid (i.e. short- and long-reads) assembly approaches. Complete genomes allow a deeper understanding of bacterial evolution and genomic variation beyond single nucleotide variants (SNVs). They are also crucial for identifying plasmids, which often carry medically significant antimicrobial resistance (AMR) genes. However, small plasmids are often missed or misassembled by long-read assembly algorithms. Here, we present Hybracter which allows for the fast, automatic, and scalable recovery of near-perfect complete bacterial genomes using a long-read first assembly approach. Hybracter can be run either as a hybrid assembler or as a long-read only assembler. We compared Hybracter to existing automated hybrid and long-read only assembly tools using a diverse panel of samples of varying levels of long-read accuracy with manually curated ground truth reference genomes. We demonstrate that Hybracter as a hybrid assembler is more accurate and faster than the existing gold standard automated hybrid assembler Unicycler. We also show that Hybracter with long-reads only is the most accurate long-read only assembler and is comparable to hybrid methods in accurately recovering small plasmids. Data SummaryO_LIHybracter is developed using Python and Snakemake as a command-line software tool for Linux and MacOS systems. C_LIO_LIHybracter is freely available under an MIT License on GitHub (https://github.com/gbouras13/hybracter) and the documentation is available at Read the Docs (https://hybracter.readthedocs.io/en/latest/). C_LIO_LIHybracter is available to install via PyPI (https://pypi.org/project/hybracter/) and Bioconda (https://anaconda.org/bioconda/hybracter). A Docker/Singularity container is also available at https://quay.io/repository/gbouras13/hybracter. C_LIO_LIAll code used to benchmark Hybracter, including the reference genomes, is publicly available on GitHub (https://github.com/gbouras13/hybracter_benchmarking) with released DOI (https://zenodo.org/doi/10.5281/zenodo.10910108) available at Zenodo. C_LIO_LIThe subsampled FASTQ files used for benchmarking are publicly available at Zenodo with DOI (https://doi.org/10.5281/zenodo.10906937). C_LIO_LIAll super accuracy simplex ATCC FASTQ reads sequenced as a part of this study can be found under BioProject PRJNA1042815. C_LIO_LIAll Hall et al. fast accuracy simplex and super accuracy duplex ATCC FASTQ read files (prior to subsampling) can be found in the SRA under BioProject PRJNA1087001. C_LIO_LIAll raw Lermaniaux et al. FASTQ read files and genomes (prior to subsampling) can be found in the SRA under BioProject PRJNA1020811. C_LIO_LIAll Staphylococcus aureus JKD6159 FASTQ read files and genomes can be found under BioProject PRJNA50759. C_LIO_LIAll Mycobacterium tuberculosis H37R2 FASTQ read files and genomes can be found under BioProject PRJNA836783. C_LIO_LIThe complete list of BioSample accession numbers for each benchmarked sample can be found in Supplementary Table 1. C_LIO_LIThe benchmarking assembly output files are publicly available on Zenodo with DOI (https://doi.org/10.5281/zenodo.10906937). C_LIO_LIAll Pypolca benchmarking outputs and code are publicly available on Zenodo with DOI (https://zenodo.org/doi/10.5281/zenodo.10072192). C_LI Impact StatementComplete bacterial genome assembly using hybrid sequencing is a routine and vital part of bacterial genomics, especially for identification of mobile genetic elements and plasmids. As sequencing becomes cheaper, easier to access and more accurate, automated assembly methods are crucial. With Hybracter, we present a new long-read first automated assembly tool that is faster and more accurate than the widely-used Unicycler. Hybracter can be used both as a hybrid assembler and with long-reads only. Additionally, it solves the problems of long-read assemblers struggling with small plasmids, with plasmid recovery from long-reads only performing on par with hybrid methods. Hybracter can natively exploit the parallelisation of high-performance computing (HPC) clusters and cloud-based environments, enabling users to assemble hundreds or thousands of genomes with one line of code. Hybracter is available freely as source code on GitHub, via Bioconda or PyPi.

Autores: George Bouras, G. Houtak, R. R. Wick, V. Mallawaarachchi, M. J. Roach, B. Papudeshi, L. M. Judd, A. E. Sheppard, R. A. Edwards, S. Vreugde

Última atualização: 2024-04-11 00:00:00

Idioma: English

Fonte URL: https://www.biorxiv.org/content/10.1101/2023.12.12.571215

Fonte PDF: https://www.biorxiv.org/content/10.1101/2023.12.12.571215.full.pdf

Licença: https://creativecommons.org/licenses/by/4.0/

Alterações: Este resumo foi elaborado com a assistência da AI e pode conter imprecisões. Para obter informações exactas, consulte os documentos originais ligados aqui.

Obrigado ao biorxiv pela utilização da sua interoperabilidade de acesso aberto.

Mais de autores

Artigos semelhantes