Desafios e Inovações na Anotação do Genoma
Uma olhada nas últimas novidades em métodos de montagem e anotação de genoma.
― 7 min ler
Índice
Em 2001, o primeiro rascunho completo do genoma humano foi compartilhado, mudando a forma como os pesquisadores olham para as informações genéticas. Essa descoberta levou a um aumento nas ferramentas e recursos voltados para estudar genomas, especialmente para entender como eles evoluem e sua importância na medicina. Porém, muitos pesquisadores que trabalham com organismos menos estudados, chamados organismos não-modelo, tiveram dificuldades para conseguir sequências genômicas. Isso se deveu principalmente ao alto custo de criar essas montagens genômicas, o que significava que tinham que usar métodos mais lentos que dificultavam colocar suas descobertas em um contexto genético mais amplo. Embora novas técnicas como Sequenciamento de RNA ajudassem, eles ainda enfrentavam problemas sem montagens genômicas completas.
Recentemente, avanços em tecnologia, como o sequenciamento de DNA de leitura longa, tornaram mais barato e fácil produzir montagens genômicas. Essa mudança possibilitou que mais pesquisadores coletassem e analisassem dados genéticos de organismos não-modelo. Porém, uma vez que um rascunho do genoma é criado, entender o que esse genoma significa, ou anotá-lo, continua sendo um desafio. Os pesquisadores precisam descobrir quais genes estão presentes, o que eles fazem e como se relacionam. Muitas ferramentas estão disponíveis para Anotação, mas escolher a certa não é simples.
Desafios da Anotação do Genoma
Entendendo Ferramentas de Anotação
A anotação do genoma se refere ao processo de identificar a localização dos genes e suas funções dentro de um genoma. Diferentes ferramentas têm abordagens variadas para essa tarefa. Algumas ferramentas mais antigas usavam modelos baseados em sequências para identificar áreas de DNA que poderiam representar genes. As mais recentes combinam evidências de proteínas e sequências de RNA para melhorar a precisão. Porém, como muitas ferramentas foram inicialmente desenvolvidas com um número pequeno de organismos modelo, sua eficácia para outras espécies pode ser imprevisível.
Importância da Qualidade dos Dados
A qualidade da anotação do genoma está muitas vezes ligada à qualidade dos dados usados. Para muitos métodos, fatores como o tipo de dados de sequenciamento e o organismo estudado podem afetar como bem a ferramenta se sai. Por exemplo, usar dados de sequenciamento de RNA pode melhorar o processo de anotação, especialmente ao trabalhar com genomas complexos.
Identificando o Melhor Método
Escolher o método de anotação certo pode ser complicado por causa do vasto número de ferramentas disponíveis. Alguns métodos podem funcionar melhor para certos tipos de organismos ou requerer dados específicos para funcionar de forma ideal. Avaliar esses métodos em um contexto real pode ajudar os pesquisadores a escolher as ferramentas mais eficazes para seu trabalho.
Avanços Recentes em Sequenciamento de Genoma
Novas Tecnologias Disponíveis
Tecnologias como HiFi da Pacific Biosciences e Oxford Nanopore transformaram o sequenciamento de genoma permitindo leituras mais longas de DNA. Essa mudança significa que os pesquisadores podem criar montagens genômicas mais precisas e completas do que antes.
Benefícios da Redução de Custos
Com a queda no preço da tecnologia de sequenciamento, tornou-se viável para muitos grupos de pesquisa produzir montagens genômicas para organismos não-modelo. Essa acessibilidade abre portas para mais estudos de espécies diversas que antes eram ignoradas.
Avaliando Métodos de Anotação
Objetivos do Estudo
Para ajudar os pesquisadores a entender como diversos métodos de anotação se saem, um estudo recente avaliou dez métodos diferentes em uma ampla gama de espécies. Essa investigação teve como objetivo identificar quais métodos são mais eficazes, quais tipos de dados levam às melhores anotações e como diferentes características das espécies afetam os resultados.
Critérios de Seleção de Métodos
Os métodos de anotação incluíram tanto abordagens tradicionais de modelagem de Markov ocultas quanto montadores modernos de RNA-seq. O foco foi principalmente em determinar quão bem esses métodos conseguiam recuperar genes conhecidos e quão precisamente representavam as características genômicas de diferentes organismos.
Principais Descobertas e Resultados
Escores BUSCO como Benchmark
Uma métrica usada para avaliar a performance dos métodos de anotação foram os escores BUSCO. Esses escores medem quantos genes, conhecidos por serem conservados entre muitas espécies, foram recuperados por um determinado método. Os resultados indicaram que métodos baseados em RNA-seq frequentemente retornavam escores BUSCO mais altos em comparação com modelos tradicionais, especialmente em mamíferos e algumas plantas.
Entendendo o Desempenho do Modelo Gênico
O estudo também examinou como cada método previu o número e os tamanhos das sequências codificadoras. Alguns métodos produziram muitas previsões curtas, sugerindo que poderiam estar gerando modelos gênicos fragmentados. Em contrapartida, outros produziram tamanhos mais precisos e previram sequências codificadoras mais completas.
Análise de Falsos Positivos
Os pesquisadores descobriram que certos métodos tinham taxas mais altas de falsos positivos, ou previsões que não faziam parte das regiões codificadoras do genoma. Entender essas taxas é crucial porque esclarece a confiabilidade de diferentes métodos de anotação.
Fusões Genéticas e Completude
Outro aspecto importante foi a ocorrência de Fusões gênicas. Uma fusão gênica acontece quando um gene predito se sobrepõe a mais de um gene conhecido, indicando possíveis erros na anotação. O estudo reportou taxas baixas dessas fusões, mas notou que alguns métodos eram melhores do que outros nesse quesito.
Sequências de Proteínas
Completude dasA completude das sequências de proteínas previstas foi outra área de foco. Métodos que incluíam dados de RNA-seq geralmente produziam percentagens mais altas de previsões completas de proteínas em comparação com aqueles que usavam apenas previsões baseadas em modelos. Isso sugere que o RNA-seq pode melhorar significativamente a precisão das previsões de genes codificadores de proteínas.
Representação do Transcriptoma e Taxas de Expressão
O estudo também avaliou quão bem as anotações capturavam o transcriptoma expresso subjacente. Montadores de RNA-seq mostraram desempenho melhor em termos de taxas de alinhamento em comparação com métodos tradicionais. Isso indicou que eram mais eficazes em representar o que estava realmente sendo expresso nas células do organismo.
Integração de Métodos e Recomendações
Combinando Diferentes Métodos
Integrar anotações de múltiplos métodos pode potencialmente aproveitar os pontos fortes de cada abordagem. Algumas combinações levaram a uma sensibilidade e métricas de performance melhoradas, mostrando que uma abordagem mais holística pode gerar melhores resultados para a anotação do genoma.
Recomendações Práticas para Pesquisadores
Com base nas descobertas, o estudo propôs várias diretrizes para pesquisadores que buscam anotar seus genomas. Gerar dados de RNA-seq em tecidos relevantes é altamente encorajado, assim como usar ferramentas como o Stringtie para montagem. Se o RNA-seq não estiver disponível, usar métodos comprovados como TOGA ou BRAKER ainda pode resultar em anotações úteis.
Filtrando Previsões de Baixa Qualidade
Para melhorar a qualidade geral das anotações, os pesquisadores devem considerar implementar estratégias de filtragem para excluir previsões que provavelmente sejam de baixa qualidade ou irrelevantes. Métodos como usar níveis de expressão e evidências de proteínas conhecidas podem ajudar nesse processo de filtragem.
Conclusão
À medida que a tecnologia de sequenciamento de genoma continua a avançar, torna-se cada vez mais importante entender como melhor anotar esses genomas. Com o crescente número de ferramentas disponíveis, os pesquisadores precisam navegar por uma paisagem complexa para encontrar os métodos que fornecerão os resultados mais precisos e informativos para seus organismos de interesse específicos. Seguindo as diretrizes sugeridas e integrando várias abordagens de anotação, os pesquisadores podem melhorar a qualidade de suas anotações genômicas e contribuir para uma compreensão mais ampla da diversidade genética e evolução.
Título: Building better genome annotations across the tree of life
Resumo: Recent technological advances in long read DNA sequencing accompanied by dramatic reduction in costs have made the production of genome assemblies financially achievable and computationally feasible, such that genome assembly no longer represents the major hurdle to evolutionary analysis for most non-model organisms. Now, the more difficult challenge is to properly annotate a draft genome assembly once it has been constructed. The primary challenge to annotations is how to select from the myriad gene prediction tools that are currently available, determine what kinds of data are necessary to generate high quality annotations, and evaluate the quality of the annotation. To determine which methods perform the best and determine whether the inclusion of RNA-seq data is necessary to obtain a high-quality annotation, we generated annotations with 10 different methods for 21 different species spanning vertebrates, plants, and insects. We found that the RNA-seq assembler Stringtie and the annotation transfer method TOGA were consistently top performers across a variety of metrics including BUSCO recovery, CDS length, and false positive rate, with the exception that TOGA performed less in plants with larger genomes. RNA-seq alignment rate was best with RNA-seq assemblers. HMM-based methods such as BRAKER, MAKER, and multi-genome AUGUSTUS mostly underperformed relative to Stringtie and TOGA. In general, inclusion of RNA-seq data will lead to substantial improvements to genome annotations, and there may be cases where complementarity among methods may motivate combining annotations from multiple sources.
Autores: Adam H Freedman, T. B. Sackton
Última atualização: 2024-05-21 00:00:00
Idioma: English
Fonte URL: https://www.biorxiv.org/content/10.1101/2024.04.12.589245
Fonte PDF: https://www.biorxiv.org/content/10.1101/2024.04.12.589245.full.pdf
Licença: https://creativecommons.org/licenses/by-nc/4.0/
Alterações: Este resumo foi elaborado com a assistência da AI e pode conter imprecisões. Para obter informações exactas, consulte os documentos originais ligados aqui.
Obrigado ao biorxiv pela utilização da sua interoperabilidade de acesso aberto.
Ligações de referência
- https://github.com/lh3/seqtk
- https://www.bioinformatics.babraham.ac.uk/projects/trim_galore/
- https://github.com/TransDecoder/TransDecoder
- https://github.com/TransDecoder/TransDecoder/wiki
- https://bioinf.uni-greifswald.de/bioinf
- https://github.com/Gaius-Augustus/TSEBRA
- https://github.com/harvardinformatics/GenomeAnnotation-TOGA
- https://github.com/hillerlab/TOGA
- https://github.com/harvardinformatics/GenomeAnnotation-ComparativeAugustus
- https://gist.github.com/darencard/bb1001ac1532dd4225b030cf0cd61ce2
- https://github.com/harvardinformatics/GenomeAnnotation-Maker