Simple Science

Ciência de ponta explicada de forma simples

# Biologia# Bioinformática

Avanços na Pesquisa de Pangenoma

Um olhar sobre o progresso da análise e visualização do pangenoma.

― 10 min ler


Avanços na Pesquisa doAvanços na Pesquisa doPangenomadados genômicos complexos.Melhorias na análise e visualização de
Índice

O estudo dos genomas, que são os conjuntos completos de DNA nos organismos, avançou bastante nos últimos anos. Uma conquista chave nessa área é o desenvolvimento do que chamamos de genoma de referência. Esse genoma de referência serve como ponto de partida para os pesquisadores. Ele inclui informações essenciais sobre os genes e outros elementos funcionais. Usando essa referência, os cientistas conseguem mapear novos dados de sequenciamento, o que ajuda a identificar diferenças e semelhanças entre vários genomas.

Além do genoma de referência, as anotações têm um papel crucial. As anotações fornecem detalhes sobre partes específicas do genoma, destacando onde os genes estão localizados, o que esses genes fazem e como eles podem diferir entre indivíduos. Essas anotações costumam ser armazenadas separadamente do próprio genoma, usando arquivos de texto que podem ser organizados para acesso rápido. Os formatos comuns para esses arquivos incluem VCF, BED e GFF.

Com a melhoria das tecnologias de sequenciamento, agora somos capazes de criar genomas de alta qualidade de diferentes indivíduos. Isso levou ao desenvolvimento de Pangenomas. Um pangenoma é uma coleção de genomas de indivíduos relacionados, permitindo que a gente entenda as variações dentro de uma espécie. Basicamente, os pangenomas formam uma espécie de mapa genômico que mostra como diferentes genomas se relacionam.

Trabalhando com Pangenomas

Embora os pangenomas permitam que os pesquisadores analisem variações genéticas de forma mais abrangente, trabalhar com eles ainda traz desafios. Ferramentas para analisar pangenomas são relativamente novas, e muitas ainda estão em estágios iniciais de desenvolvimento. No entanto, algumas aplicações já mostraram que podem melhorar os métodos tradicionais. Por exemplo, ao analisar dados de sequenciamento, usar um pangenoma pode levar a um mapeamento melhor das leituras, chamada de variantes genéticas e avaliação da expressão gênica.

Ao trabalhar com pangenomas, é importante representar objetos genômicos de forma clara. Isso inclui leituras de sequenciamento e outros elementos genômicos. Atualmente, os resultados das análises de pangenomas são frequentemente simplificados para se encaixar na estrutura linear dos genomas de referência. Apesar disso, organizar e visualizar essas anotações genômicas em pangenomas é crucial para uma análise e interpretação eficazes.

Ferramentas de Visualização para Pangenomas

Várias ferramentas de visualização interativas para pangenomas foram desenvolvidas; no entanto, elas costumam se concentrar em mostrar a estrutura do gráfico e integrar dados adicionais pode ser desafiador. Aqui está uma visão geral de algumas ferramentas disponíveis:

  • Bandage-NG: Essa ferramenta permite que os usuários visualizem gráficos de montagem e pode lidar com pangenomas complexos.
  • GfaViz: Essa ferramenta visualiza gráficos de sequência e suporta formatos específicos, mas tem limitações em carregar anotações adicionais.
  • Mapa de Tubo de Sequência: Essa ferramenta exibe pangenomas e leituras, permitindo consultas em áreas específicas.
  • MoMI-G: Essa ferramenta foca na visualização de variantes estruturais, que são diferenças na estrutura dos cromossomos.
  • Panache: Essa ferramenta é especializada em visualização centrada em genes, exibindo sequências homólogas lado a lado.

Enquanto essas ferramentas oferecem insights valiosos sobre pangenomas, ainda não há um método unificado para incorporar informações de anotações adicionais.

Representações Estáticas de Pangenomas

Além das ferramentas interativas, também há opções para exibir representações mais simples de pangenomas ou suas partes. O toolkit vg e o toolkit odgi são dois exemplos de software que podem ajudar a visualizar pangenomas. Eles podem criar representações visuais que podem ser lidas e entendidas pelos pesquisadores.

No entanto, há limitações nessas abordagens, especialmente em relação à forma como as anotações são exibidas. Por exemplo, algumas ferramentas exigem modificações ou processamento adicional antes que consigam visualizar os dados corretamente. Como resultado, há uma necessidade forte de um formato que facilite o manuseio de anotações pangenômicas.

A Necessidade de um Novo Formato

Atualmente, formatos como BED, GFF e VCF mostraram-se bem-sucedidos em lidar com anotações para genomas de referência. No entanto, há uma necessidade urgente de um novo formato que possa gerenciar eficientemente anotações para pangenomas. O Graph Alignment Format (GAF) foi proposto para esse propósito, pois poderia representar tanto alinhamentos quanto anotações em gráficos de pangenoma.

Apesar de seu potencial, o GAF não foi amplamente adotado, principalmente devido a desafios na compressão e indexação para grandes conjuntos de anotações. Desenvolvimentos recentes em ferramentas existentes introduziram novos recursos que permitem a classificação e consulta eficientes das anotações no formato GAF, tornando-o mais adequado para uso em análises pangenômicas.

Classificação e Indexação de Arquivos GAF

Para melhorar o manuseio de arquivos GAF, um novo recurso de classificação foi implementado no toolkit vg. Esse recurso classifica eficientemente os registros do GAF e os prepara para indexação. Os arquivos GAF classificados podem ser compactados para aprimorar sua acessibilidade.

A indexação de arquivos GAF permite que os pesquisadores consultem esses arquivos com mais facilidade. Em vez de depender de posições ou sequências genômicas específicas, os usuários podem consultar com base em intervalos de nós. Essa flexibilidade pode agilizar o processo de análise e facilitar a extração de dados relevantes.

Projetando Anotações em Pangenomas

Uma vez que as anotações estão organizadas, elas podem ser projetadas em pangenomas. Ao fazer isso, os pesquisadores podem relacionar anotações de genes e repetições de genomas individuais em uma estrutura de pangenoma. Esse processo garante que todas as informações relevantes sejam mapeadas de forma eficiente, ajudando na análise geral.

Ferramentas específicas foram criadas para facilitar esse processo de projeção, permitindo que os usuários tracejassem caminhos dentro do gráfico de pangenoma e extraíssem dados de anotações relevantes. Os resultados podem ser armazenados em formato GAF, permitindo análises e visualizações adicionais.

Trilhas de Cobertura a partir de Leituras Mapeadas

A genômica funcional muitas vezes depende de trilhas de cobertura para visualizar dados. Uma trilha de cobertura resume quanto dado de sequenciamento sobrepõe regiões específicas do genoma. Essa informação pode indicar características biológicas importantes, como regiões regulatórias ativas.

Para criar trilhas de cobertura em um pangenoma, foi desenvolvido um método para resumir a cobertura de leitura em relação a diferentes caminhos. Ao empregar uma abordagem de binning que categoriza a cobertura de leitura em classes, os pesquisadores podem visualizar quais áreas são mais ativas com base na quantidade de dados de sequenciamento mapeados.

Anotando Variantes Conhecidas

Outra aplicação do formato GAF é na identificação de variantes genéticas conhecidas. Variantes podem ser encontradas em bancos de dados públicos e comparadas a um pangenoma. Esse processo de correspondência resulta na criação de arquivos GAF especificamente dedicados a caminhos de variantes.

Essa abordagem permite que os pesquisadores extraírem rapidamente informações sobre variantes relevantes e visualizem-nas junto aos dados genômicos. Ao integrar perfeitamente variantes conhecidas na análise, os cientistas podem aprimorar sua compreensão de como essas variantes impactam o cenário genômico geral.

Visualização em Ferramentas

Ferramentas como o Mapa de Tubo de Sequência e Bandage-NG agora podem aceitar arquivos GAF, facilitando a visualização de estruturas genômicas complexas. O Mapa de Tubo de Sequência oferece uma maneira interativa de explorar dados de pangenoma, destacando caminhos específicos tomados por leituras ou anotações.

Da mesma forma, o Bandage-NG permite que os pesquisadores visualizem pangenomas graficamente, exibindo os caminhos e suas relações. Essa capacidade de visualizar dados é vital para entender as implicações das variações genéticas e anotações.

Classificação e Indexação de Leituras de Sequenciamento

A eficiência da classificação e indexação de leituras melhorou significativamente com o formato GAF. Quando comparado a métodos existentes, a classificação de leituras no formato GAF mostrou ser mais rápida e mais eficiente em termos de espaço. Usar GAF em vez de outros formatos pode reduzir significativamente os recursos computacionais necessários para análises.

Uma vez indexados, os pesquisadores podem extrair rapidamente dados de arquivos GAF. Essa eficiência é essencial, especialmente ao trabalhar com grandes conjuntos de dados, pois ajuda a agilizar o processo de análise geral.

Projetando Anotações em Pangenomas

A projeção de anotações em pangenomas é um processo que envolve mapear várias características genômicas de haplótipos individuais. Essa projeção permite que os pesquisadores visualizem uma gama de informações genéticas, aprimorando sua compreensão do pangenoma como um todo.

Esse processo pode incluir anotações de genes, duplicações segmentares e outras características relevantes, fornecendo uma visão abrangente do cenário genômico. A capacidade de projetar essas anotações em uma estrutura compartilhada convida a colaboração e facilita insights genéticos mais profundos.

Cobertura de Conjuntos de Dados Funcionais

A integração de conjuntos de dados funcionais, como os da ENCODE, nas análises de pangenoma pode fornecer um contexto valioso. Ao utilizar conjuntos de dados ATAC-seq, os pesquisadores podem gerar trilhas de cobertura que indicam áreas do genoma que são acessíveis e provavelmente ativas.

Essas informações aprimoram a compreensão geral das funções genômicas e de como diferentes regiões podem se comportar sob várias condições biológicas. Visualizar essas conexões permite que os pesquisadores façam interpretações informadas dos dados.

Integrando Múltiplas Fontes de Informação

Combinar diferentes fontes de informação nas análises de pangenoma pode oferecer insights mais ricos. Ao sobrepor dados de genômica funcional, como trilhas de cobertura, com anotações e variantes, os pesquisadores podem desenvolver uma compreensão mais nuançada da interação entre variações genéticas e funções biológicas.

Essa integração de múltiplos conjuntos de dados permite uma visão holística do cenário genômico, permitindo que os pesquisadores explorem a natureza dinâmica das interações genéticas.

Desafios e Direções Futuras

Apesar dos avanços nas análises de pangenoma, vários desafios permanecem. Os métodos atuais para gerenciar e visualizar anotações pangenômicas precisam de mais refinamento para otimizar sua usabilidade.

Enquanto ferramentas como Bandage-NG e GfaViz oferecem capacidades valiosas, ainda há uma necessidade de formatos e métodos padronizados para agilizar o manuseio de dados. Melhorar a organização de metadados e apoiar uma melhor integração de diferentes anotações será crucial para guiar a pesquisa futura.

Conclusão

A capacidade de gerenciar, analisar e visualizar dados pangenômicos avançou muito. Com novos formatos como GAF e avanços nas ferramentas existentes, os pesquisadores podem agora trabalhar com dados genômicos complexos de forma mais eficiente. Ao projetar anotações, resumir cobertura e integrar vários conjuntos de dados, o futuro dos estudos genômicos parece promissor.

O desenvolvimento contínuo dessas ferramentas e metodologias facilitará uma melhor compreensão das variações genéticas e seu impacto na biologia. À medida que a pesquisa continua a progredir, o potencial dos pangenomas para nos informar sobre as bases genéticas da saúde e da doença só crescerá. Ao abraçar esses avanços, a comunidade científica pode esperar descobertas empolgantes no campo em constante evolução da genômica.

Fonte original

Título: Efficient indexing and querying of annotations in a pangenome graph

Resumo: The current reference genome is the backbone of diverse and rich annotations. Simple text formats, like VCF or BED, have been widely adopted and helped the critical exchange of genomic information. There is a dire need for tools and formats enabling pangenomic annotation to facilitate such enrichment of pangenomic references. The Graph Alignment Format (GAF) is a text format, tab-delimited like BED/VCF files, which was proposed to represent alignments. GAF could also be used to store paths representing annotations in a pangenome graph, but there are no tools to index and query them efficiently. Here, we present extensions to vg and HTSlib that provide efficient sorting, indexing, and querying for GAF files. With this approach, annotations overlapping a subgraph can be extracted quickly. Paths are sorted based on the IDs of traversed nodes, compressed with BGZIP, and indexed with HTSlib/tabix via our extensions for the GAF format. Compared to the binary GAM format, GAF files are easier to edit or inspect because they are plain text, and we show that they are twice as fast to sort and half as large on disk. In addition, we updated vg annotate, which takes BED or GFF3 annotation files relative to linear sequences and projects them into the pangenome. It can now produce GAF files representing these annotations paths through the pangenome. We showcase these new tools on several applications. We projected annotations for all Human Pangenome Reference Consortium Year 1 haplotypes, including genes, segmental duplications, tandem repeats and repeats annotations, into the Minigraph-Cactus pangenome (GRCh38-based v1.1). We also projected known variants from the GWAS Catalog and expression QTLs from the GTEx project into the pangenome. Finally, we reanalyzed ATAC-seq data from ENCODE to demonstrate what a coverage track could look like in a pangenome graph. These rich annotations can be quickly queried with vg and visualized using existing tools like the Sequence Tube Map or Bandage.

Autores: Jean Monlong, A. M. Novak, D. Chung, G. Hickey, S. Djebali, T. T. Yokoyama, E. Garrison, G. Narzisi, B. Paten

Última atualização: 2024-10-15 00:00:00

Idioma: English

Fonte URL: https://www.biorxiv.org/content/10.1101/2024.10.12.618009

Fonte PDF: https://www.biorxiv.org/content/10.1101/2024.10.12.618009.full.pdf

Licença: https://creativecommons.org/licenses/by/4.0/

Alterações: Este resumo foi elaborado com a assistência da AI e pode conter imprecisões. Para obter informações exactas, consulte os documentos originais ligados aqui.

Obrigado ao biorxiv pela utilização da sua interoperabilidade de acesso aberto.

Mais de autores

Artigos semelhantes