Avanços em Pangenômica com a Ferramenta Panacus
Panacus simplifica a análise de pangenomas usando técnicas de gráfico inovadoras.
― 6 min ler
Índice
Pangenômica é um campo que analisa o conjunto completo de genes em um grupo de organismos da mesma espécie. Começou com o estudo dos genomas bacterianos, onde os pesquisadores definiram o pangenoma como todos os genes presentes em diferentes cepas de uma espécie. Nesse contexto, o genoma central consiste em genes que todas as cepas compartilham, enquanto o genoma acessório inclui genes que só algumas cepas têm.
A Mudança na Abordagem
No começo, o estudo dos pangenomas focava em genes, o que significava que dependia de genomas totalmente anotados. Essa abordagem tinha suas limitações porque não conseguia levar em conta áreas não codificadoras do DNA. Para superar isso, os pesquisadores introduziram uma nova forma de definir pangenomas com base em sequências de DNA em vez de apenas genes. Essa abordagem baseada em sequências inclui tanto regiões codificadoras quanto não codificadoras do DNA, permitindo acomodar organismos mais complexos, como plantas e animais, que têm genomas maiores.
Apesar das diferenças em como os pangenomas são definidos, ambos os métodos tratam o pangenoma como uma coleção que destaca a variabilidade e as semelhanças genéticas. Dois conceitos-chave em pangenômica são o crescimento do pangenoma e as curvas do núcleo. O crescimento do pangenoma refere-se a como a quantidade total de informação genômica aumenta conforme mais genomas são estudados. Esse processo começa com um genoma e vai adicionando outros ao longo do tempo. A ordem em que os genomas são incluídos pode afetar o resultado, então o crescimento médio é calculado sobre todas as possíveis sequências de inclusão. A curva do núcleo ilustra como o tamanho do genoma central muda à medida que novos genomas são adicionados.
Avanços na Representação
À medida que o campo se desenvolveu, as maneiras de representar pangenomas também mudaram. Um dos avanços significativos foi o uso de gráficos para manter a ordem das sequências de dados genômicos. Nesses gráficos de sequência, os nós representam sequências encontradas em vários genomas, enquanto as bordas mostram como essas sequências aparecem umas ao lado das outras dentro de um genoma. Esses gráficos se tornaram valiosos para montar sequências de DNA a partir de muitas leituras.
No entanto, gráficos de sequência podem ser imprecisos, o que significa que podem não representar as sequências reais com precisão. Para criar uma representação mais fiel, os pesquisadores desenvolveram Gráficos de Pangenoma que incluem caminhos representando as sequências originais. Esses gráficos de pangenoma, também chamados de gráficos de variação, são o foco principal de uma nova ferramenta projetada para trabalhar com eles.
Apresentando o Panacus
Panacus é uma nova ferramenta para extrair informações rapidamente de pangenomas mostrados como gráficos de pangenoma. Ele suporta arquivos no formato Graphical Fragment Assembly, onde cada linha representa um segmento de DNA, um link entre segmentos ou um caminho. Os usuários podem se concentrar em partes específicas do pangenoma definindo limites mínimos de cobertura ou selecionando regiões específicas.
Essa ferramenta ajuda a contar vários elementos dentro dos gráficos de pangenoma, como nós, bordas e pares de bases-coletivamente chamados de Contáveis. Por exemplo, a cobertura de uma borda ou um nó se refere ao número de caminhos distintos que os incluem. Os usuários podem visualizar essas distribuições de cobertura para uma análise melhor.
Recursos do Panacus
Um dos principais recursos do Panacus é sua capacidade de calcular rapidamente o crescimento do pangenoma e as curvas do núcleo. A ferramenta fornece estatísticas básicas e tabelas de cobertura detalhadas para diferentes contáveis. Além disso, gera um relatório interativo que resume os dados e visualizações para fácil acesso.
Panacus permite agrupar caminhos com base em dados de amostra, facilitando a análise de diferentes sequências juntas. Os usuários podem excluir partes específicas do pangenoma para focar sua análise ou definir limites mínimos de cobertura para resultados mais personalizados.
Panacus também ajuda a estimar o crescimento do pangenoma e o tamanho do núcleo para novos genomas ainda não vistos. Inclui um script que permite que os usuários extrapolem o crescimento usando diferentes métodos estatísticos. Isso torna mais fácil fazer previsões com base em dados existentes.
Comparando Gráficos de Pangenoma
Para mostrar como o Panacus é eficaz, ele foi aplicado ao estudo de dois gráficos de pangenoma específicos. O primeiro gráfico é baseado em genomas humanos, enquanto o segundo foi construído a partir de diferentes cepas de Escherichia coli. Ambos os gráficos foram criados usando ferramentas específicas conhecidas por montar dados genômicos.
Ao comparar o Panacus com outra ferramenta chamada odgi heaps, foi descoberto que enquanto o odgi heaps demora mais e usa mais memória, o Panacus oferece recursos adicionais que não estão disponíveis no odgi heaps. Essa comparação mostra a necessidade de ferramentas eficientes para lidar com a quantidade crescente de dados genômicos.
Analisando Partes Específicas do Pangenoma
O Panacus permite que os pesquisadores foquem em regiões específicas dentro de um pangenoma. Por exemplo, ao estudar regiões eucromáticas e intragenéticas do pangenoma humano, os pesquisadores podem obter insights que poderiam ser perdidos ao olhar o genoma inteiro. Essa abordagem direcionada ajuda a evitar erros na análise de dados que podem ocorrer devido a um sub-alinhamento.
Ao mapear a cobertura de regiões específicas, o Panacus pode ilustrar efetivamente as diferenças em como os genes são compartilhados ao longo do pangenoma humano. Por exemplo, a análise revelou que regiões intragenéticas, que geralmente são mais conservadas, mostraram um padrão diferente em comparação com regiões eucromáticas mais amplas.
Conclusão
O Panacus representa um grande avanço no campo da pangenômica. Essa ferramenta oferece aos pesquisadores uma maneira robusta e eficiente de estudar e comparar gráficos de pangenoma rapidamente. Ao agilizar o processo de geração de crescimento e curvas do núcleo, o Panacus permite uma análise mais profunda da variabilidade genética e das semelhanças entre diferentes organismos.
Além de apenas comparar o mesmo pangenoma construído com várias ferramentas, o Panacus também pode analisar pangenomas totalmente diferentes, proporcionando uma plataforma flexível para pesquisa genética. À medida que esse campo continua a crescer, ferramentas como o Panacus terão um papel crucial em avançar nossa compreensão da genética e das complexidades da vida.
Título: Panacus: fast and exact pangenome growth and core size estimation
Resumo: MotivationUsing a single linear reference genome poses a limitation to exploring the full genomic diversity of a species. The release of a draft human pangenome underscores the increasing relevance of pangenomics to overcome these limitations. Pangenomes are commonly represented as graphs, which can represent billions of base pairs of sequence. Presently, there is a lack of scalable software able to perform key tasks on pangenomes, such as quantifying universally shared sequence across genomes (the core genome) and measuring the extent of genomic variability as a function of sample size (pangenome growth). ResultsWe introduce Panacus (pangenome-abacus), a tool designed to rapidly perform these tasks and visualize the results in interactive plots. Panacus can process GFA files, the accepted standard for pangenome graphs, and is able to analyze a human pangenome graph with 110 million nodes in less than one hour. AvailabilityPanacus is implemented in Rust and is published as Open Source software under the MIT license. The source code and documentation are available at https://github.com/marschall-lab/panacus. Panacus can be installed via Bioconda at https://bioconda.github.io/recipes/panacus/README.html. ContactLuca Parmigiani ([email protected]), Daniel Doerr ([email protected]).
Autores: Luca Parmigiani, E. Garrison, J. Stoye, T. Marschall, D. Doerr
Última atualização: 2024-06-12 00:00:00
Idioma: English
Fonte URL: https://www.biorxiv.org/content/10.1101/2024.06.11.598418
Fonte PDF: https://www.biorxiv.org/content/10.1101/2024.06.11.598418.full.pdf
Licença: https://creativecommons.org/licenses/by-nc/4.0/
Alterações: Este resumo foi elaborado com a assistência da AI e pode conter imprecisões. Para obter informações exactas, consulte os documentos originais ligados aqui.
Obrigado ao biorxiv pela utilização da sua interoperabilidade de acesso aberto.