DFAST_QC: Uma Ferramenta Chave para Validação do Genoma
DFAST_QC garante um rotulagem precisa dos genomas pra uma pesquisa biológica melhor.
― 7 min ler
Índice
Bancos de dados públicos de genoma têm um papel crucial na pesquisa biológica. Esses bancos guardam informações genéticas de vários organismos, ajudando os cientistas a conduzirem estudos de forma mais eficiente. Dados precisos, incluindo detalhes sobre cada genoma, são super importantes. Quando os genomas são rotulados errado, pode causar confusões e erros nas pesquisas, o que é problemático quando os cientistas usam essas informações para o trabalho deles.
Pra garantir que os genomas têm os rótulos taxonômicos corretos, o Centro Nacional de Informação Biotecnológica (NCBI) tá usando um método chamado Identidade Média de Nucleotídeos (ANI) desde 2018. Esse método ajuda os cientistas a comparar a composição genética de dois genomas e determinar se eles pertencem à mesma espécie. Geralmente, uma similaridade de 95% na composição genética indica que dois genomas são da mesma espécie. Os dados nesses bancos são organizados usando um sistema chamado Taxonomia do NCBI, que ajuda a manter consistência nos nomes dos organismos diferentes.
O que é DFAST_QC?
DFAST_QC é uma ferramenta criada pra validar genomas no Banco de Dados de DNA do Japão (DDBJ), que é membro da comunidade global de compartilhamento de dados genéticos. Essa ferramenta garante que os genomas enviados pro DDBJ estão rotulados corretamente e têm alta qualidade. O DFAST_QC pode funcionar online pelo serviço web DFAST, que ajuda cientistas com a anotação de genomas e a submissão de dados. Também pode ser usado no computador pessoal como uma ferramenta independente.
O DFAST_QC rapidamente identifica o grupo taxonômico de um genoma usando a Taxonomia do NCBI. Ele usa um método chamado Mash pra estimar similaridade e outra ferramenta, Skani, pra calcular o ANI de forma precisa. Além disso, verifica a qualidade dos genomas avaliando quão completos eles são e se estão contaminados. Também pode comparar genomas com um banco de dados separado chamado GTDB, que fornece informações adicionais para classificação.
Como o DFAST_QC Funciona
O DFAST_QC usa um método em duas etapas pra checar a taxonomia dos genomas, o que economiza tempo mantendo a precisão. Pra usar o DFAST_QC, os cientistas só precisam fornecer um arquivo FASTA simples, que é um formato pra armazenar sequências de DNA. Na primeira etapa, o DFAST_QC calcula a distância genética usando MASH a partir de arquivos de esboço criados com base em genomas de referência. Na segunda etapa, ele usa Skani pra criar um arquivo de esboço mais gerenciável e acelerar o processo. Depois disso, o ANI é calculado pra determinar o grupo taxonômico do genoma que tá sendo analisado. Se disponível, aplica limites específicos de ANI pra diferentes espécies ou volta pro padrão de 95%.
Pra avaliação de qualidade, o DFAST_QC usa uma ferramenta chamada CheckM. Essa ferramenta avalia a completude e os níveis de contaminação do genoma. O conjunto de marcadores pro CheckM é escolhido automaticamente com base nos resultados da checagem taxonômica. O DFAST_QC também checa o tamanho do genoma pra garantir que tá dentro das faixas esperadas. Se o usuário quiser, o DFAST_QC pode identificar espécies usando o GTDB, consultando seus genomas representativos.
Configurando Dados de Referência
O DFAST_QC depende de duas fontes principais pra dados de referência: Conjuntos de Dados do NCBI e GTDB. Os pesquisadores podem acessar e gerenciar esses dados usando scripts em Python que vêm com o DFAST_QC.
Dados de Referência do NCBI
O DFAST_QC começa reunindo metadados sobre montagens genômicas do GenBank, onde ele identifica cepas tipo, que são genomas de referência importantes. Ele filtra qualquer genoma que não seja adequado com base em critérios específicos. Uma vez que os genomas são selecionados, o DFAST_QC os baixa e cria um banco de dados pra armazenar informações tanto dos metadados quanto dos dados de montagem do genoma. Depois disso, ele gera um arquivo de esboço consolidado usando MASH pra se preparar pras checagens taxonômicas.
Dados de Referência do GTDB
Pro GTDB, o DFAST_QC baixa genomas representativos junto com seus arquivos de metadados. Ele também cria um banco de dados SQL especificamente projetado pra buscas eficazes dentro do GTDB e cria um arquivo de esboço da mesma forma que faz com os dados do NCBI.
Testando o DFAST_QC
Pra verificar como o DFAST_QC se saiu, uma série de testes foi realizada. Os dados de referência usados pra esses testes incluíram mais de 22.000 genomas tipo do NCBI e mais de 113.000 genomas representativos do GTDB. Dois conjuntos de dados foram criados pra avaliar a precisão do DFAST_QC. O primeiro conjunto continha mais de 5.000 genomas não tipo selecionados aleatoriamente do GenBank, enquanto o segundo conjunto consistia em 10.000 genomas selecionados aleatoriamente montados a partir de dados de metagenoma.
Ambos os conjuntos de dados foram processados usando o DFAST_QC com configurações padrão. Os resultados do primeiro conjunto mostraram que o DFAST_QC combinou os nomes das espécies em quase todos os casos. De 5.184 casos, apenas quatro erros de correspondência foram relatados. Esses erros provavelmente vieram de rotulagens erradas dos genomas ou inconsistências dentro do sistema taxonômico. Muitos dos casos em que houve erro ainda estavam muito próximos da espécie correta, indicando que o DFAST_QC é bem eficaz na sua identificação.
No segundo conjunto de dados, o DFAST_QC mostrou consistência com os resultados de outra ferramenta, o GTDB-Tk, confirmando sua confiabilidade na identificação em nível de espécie.
Limitações e Melhorias Futuras
Embora o DFAST_QC tenha se mostrado preciso quando um genoma de referência está disponível, ele tem limitações. Pra espécies que não têm um genoma tipo sequenciado, o DFAST_QC não consegue atribuir um nome de espécie com confiança. Isso é um problema significativo, já que muitas espécies atualmente não têm um genoma tipo sequenciado. Felizmente, essa situação tá melhorando lentamente devido a vários projetos de sequenciamento e crescentes recomendações pra depositar sequências de genoma junto com novas descrições de espécies.
A capacidade de buscar contra os genomas representativos do GTDB também pode ajudar a enfrentar algumas dessas limitações, especialmente pra genomas que não têm dados de referência suficientes.
Comparando o DFAST_QC com Outras Ferramentas
Diferente de outras ferramentas de identificação de genoma, o DFAST_QC foca exclusivamente em atribuir nomes de espécies e não fornece análises filogenéticas detalhadas em níveis taxonômicos mais altos. Essa escolha é intencional, pois o objetivo principal do DFAST_QC é garantir o rotulamento correto dos genomas antes que sejam enviados pra bancos de dados públicos.
O DFAST_QC foi feito pra funcionar com recursos computacionais limitados. Ele geralmente requer menos de 2GB de memória e consegue completar a identificação taxonômica em cerca de 30 segundos. O software inclui um conjunto mínimo de dados de referência pré-construídos, o que facilita a instalação em computadores pessoais em comparação com abordagens que exigem conjuntos de dados de referência extensivos.
Conclusão
O DFAST_QC é uma ferramenta essencial pra validar genomas procarióticos, garantindo que eles estejam rotulados corretamente e tenham alta qualidade. Ao utilizar tanto a Taxonomia do NCBI quanto a do GTDB pra identificação de espécies, ele apoia a integridade dos dados genômicos na pesquisa científica. Com sua interface fácil de usar e capacidade de rodar em máquinas pessoais, o DFAST_QC ajuda pesquisadores que podem não estar familiarizados com ferramentas de linha de comando, promovendo assim melhores práticas de dados na comunidade científica. Seu foco na avaliação precisa de genomas reforça sua importância nos esforços contínuos pra melhorar a confiabilidade das informações genômicas em vários campos de pesquisa.
Título: DFAST_QC: Quality Assessment and Taxonomic Identification Tool for Prokaryotic Genomes
Resumo: MotivationAccurate taxonomic assignments of genomic data are crucial across various biological databases. With a rapid increase in submitted genomes in recent years, ensuring precise classification is important to maintain database integrity. Mislabeled genomes can confuse researchers, hinder analyses, and produce false results. Therefore, there is a critical need for computationally efficient tools that ensure accurate taxonomic classification for data to be deposited into genomic databases. ResultsHere we introduce DFAST_QC, a quality control and taxonomic classification tool of prokaryotic genomes based on NCBI and GTDB taxonomies. We benchmarked DFAST_QCs performance against NCBI taxonomy assignments, showing high consistency with them. Our results demonstrate that DFAST_QC achieves high consistency to NCBI taxonomy classification. Availability and implementationDFAST_QC is implemented in Python and is available both as a web service (https://dfast.ddbj.nig.ac.jp/dqc) and as a stand-alone command line tool. The source code is available under the GPLv3 license at: https://github.com/nigyta/dfast_qc, and the conda package is also available from Bioconda. The data and scripts used for the benchmarking process are publicly available on GitHub (https://github.com/Mohamed-Elmanzalawi/DFAST_QC_Benchmark). [email protected] Supplementary informationSupplementary data are available at Bioinformatics online.
Autores: Yasuhiro Tanizawa, M. Elmanzalawi, T. Fujisawa, H. Mori, Y. Nakamura
Última atualização: 2024-07-24 00:00:00
Idioma: English
Fonte URL: https://www.biorxiv.org/content/10.1101/2024.07.22.604526
Fonte PDF: https://www.biorxiv.org/content/10.1101/2024.07.22.604526.full.pdf
Licença: https://creativecommons.org/licenses/by/4.0/
Alterações: Este resumo foi elaborado com a assistência da AI e pode conter imprecisões. Para obter informações exactas, consulte os documentos originais ligados aqui.
Obrigado ao biorxiv pela utilização da sua interoperabilidade de acesso aberto.