Simple Science

Ciência de ponta explicada de forma simples

# Biologia# Bioinformática

Avanços nas Ferramentas de Anotação do Vírus da Gripe

Novas ferramentas melhoram o rastreamento e a análise das sequências do vírus da gripe.

― 7 min ler


Ferramentas de AnotaçãoFerramentas de Anotaçãode Vírus da Influenzarastreamento dos vírus da gripe.Ferramentas inovadoras melhoram o
Índice

A gripe, conhecida como Influenza, é um vírus que afeta cerca de 1 bilhão de pessoas no mundo todo a cada ano. Pode causar sérios problemas de saúde e é responsável por entre 290.000 e 650.000 mortes anualmente. A influenza é causada por vírus de RNA segmentado de sentido negativo da família Orthomyxoviridae. Existem quatro tipos principais de vírus da gripe: A, B, C e D. O tipo A é o que mais causa doenças em humanos e já provocou quatro pandemias importantes desde 1900. Os tipos B e C também afetam os humanos, enquanto o tipo D infecta principalmente vacas e porcos.

O influenza A tem oito segmentos e é dividido em subtipos, nomeados com base em duas proteínas específicas: hemaglutinina e neuraminidase. Esses subtipos podem ser identificados por códigos como H5N1.

Rastreando Vírus da Gripe Através do Sequenciamento Genômico

Há quase vinte anos, cientistas usam sequenciamento genômico em larga escala para entender e rastrear os vírus da gripe. Existem quase um milhão de Sequências genômicas de influenza armazenadas em bancos de dados públicos como GenBank, o Arquivo Europeu de Nucleotídeos e o Banco de Dados de DNA do Japão. Esses bancos de dados trabalham juntos para compartilhar e hospedar os mesmos dados, sendo que a maioria das sequências da gripe é submetida ao GenBank.

Desde 2018, cerca de 50.000 sequências do influenza A foram adicionadas ao GenBank a cada ano. Enquanto isso, o número de sequências do influenza B diminuiu, e as dos tipos C e D sempre foram baixas.

Além de hospedar essas sequências, o GenBank fornece recursos para ajudar os usuários a acessar as informações facilmente.

O Papel do FLAN na Anotação do Genoma da Gripe

A ferramenta de Anotação de Gripe (FLAN) tem sido usada desde 2007 para validar e anotar sequências de gripe enviadas ao GenBank. O FLAN verifica as submissões recebidas e checa por erros. Se não houver erros, a submissão é automaticamente incluída no banco de dados. Se houver erros, os remetentes recebem um relatório detalhando os problemas para correção.

O FLAN segue várias etapas para classificar e analisar sequências. Primeiro, compara a sequência nucleotídica com um banco de dados de referência para categorizar o tipo e segmento da sequência. Para o influenza A, também identifica o subtipo com base em proteínas específicas. Em seguida, as sequências são alinhadas com conjuntos de proteínas de referência correspondentes para verificar erros.

O FLAN pode detectar vários erros em sequências enviadas, como deslocamentos de quadro e problemas de alinhamento. Um alinhamento sem erros deve atingir as extremidades das proteínas de referência e ter códons de início e parada válidos.

Limitações do FLAN

Apesar de seu longo uso, o FLAN enfrenta desafios em acompanhar a nova diversidade de sequências de gripe. Não é facilmente acessível como um software independente, e os usuários só podem acessá-lo por meio de sua interface baseada na web. Isso dificulta seu uso em larga escala.

Apresentando o VADR para Anotação de Genoma Viral

O VADR (Viral Annotation DefineR) é outro software desenvolvido para validar e anotar sequências virais. Ele usa vários programas para classificar sequências de entrada e checar o potencial de codificação. O VADR pode automaticamente triagem e validar submissões para vários vírus, similar à função do FLAN para a gripe.

O VADR é mantido ativamente e pode ser executado localmente, ao contrário do FLAN. Para melhorar seu desempenho na análise de gripe, os modelos do VADR foram construídos com base nas sequências usadas no FLAN.

Construindo Modelos para Influenza Usando VADR

O VADR começa criando modelos com base nas sequências existentes do FLAN. Ele mapeia as sequências de referência do FLAN para os acessos correspondentes em bancos de dados públicos. Esses modelos incluem sequências nucleotídicas e produtos de proteínas correspondentes.

A biblioteca de modelos de influenza do VADR inicialmente consiste em sequências que correspondem às sequências existentes do FLAN, incluindo proteínas adicionais que melhoram o desempenho.

Para aprimorar ainda mais suas capacidades, o VADR incorpora modelos para novos subtipos de gripe e substitui sequências de genoma incompletas por versões completas de uma fonte confiável.

Treinando e Testando o VADR

Para avaliar efetivamente o desempenho do VADR, os pesquisadores construíram sequências de treinamento de várias fontes. Esses conjuntos de treinamento consistem em sequências de influenza A, B e C, permitindo uma comparação completa entre o VADR e o FLAN.

Depois de construir os conjuntos de treinamento, o VADR foi usado para anotar as sequências, permitindo comparações diretas com os resultados do FLAN.

Resultados da Comparação entre VADR e FLAN

Tanto o VADR quanto o FLAN produzem resultados semelhantes para a maioria das sequências de influenza A e B. Quando surgem diferenças, geralmente são causadas por problemas específicos na sequência. O VADR tende a ser mais preciso na identificação de sequências problemáticas, fornecendo feedback detalhado quando erros são detectados.

Para a influenza C, muitas sequências que falham no FLAN passam no VADR devido ao uso de sequências de referência mais longas, permitindo que ele lide com nucleotídeos extras de forma mais eficaz.

Analisando Diferenças entre VADR e FLAN

Os pesquisadores revisaram sequências onde o VADR e o FLAN não concordaram nos resultados de aprovação ou desaprovação. Descobriram que a maioria dos problemas identificados pelo VADR eram válidos e exigiam uma análise adicional. Em contraste, algumas sequências que falharam no VADR deveriam ter sido aprovadas de acordo com as regras do FLAN.

Essa análise ajudou a melhorar os modelos do VADR e garantir que seu desempenho continuasse consistente com os padrões do FLAN.

A Importância da Anotação Precisa

A anotação precisa de sequências virais é vital para a saúde pública e fins de pesquisa. Permite que os cientistas rastreiem a evolução do vírus, entendam padrões de resistência e desenvolvam tratamentos e vacinas eficazes. Tanto o FLAN quanto o VADR desempenham papéis cruciais em garantir a precisão dessas informações.

Direções Futuras para o VADR

À medida que os dados de sequências virais continuam a crescer, a necessidade de ferramentas de anotação confiáveis se torna mais urgente. O VADR pretende acompanhar esse aumento atualizando regularmente seus modelos em colaboração com organizações que monitoram variantes virais.

Com melhorias em usabilidade e desempenho, o VADR está posicionado para se tornar uma ferramenta preferida para anotar sequências de gripe daqui pra frente.

Conclusão

A gripe continua sendo um problema significativo de saúde global, afetando milhões a cada ano. O rastreamento e a anotação precisos dos vírus da gripe são essenciais para controlar surtos e desenvolver vacinas. Ferramentas como o FLAN e o VADR fornecem as capacidades necessárias para gerenciar e analisar a vasta quantidade de dados de sequências gerados por pesquisadores e agências de saúde pública. À medida que novas cepas surgem, essas ferramentas serão fundamentais para garantir que os responsáveis pela saúde tenham as informações mais precisas disponíveis para proteger a saúde pública.

Fonte original

Título: Influenza sequence validation and annotation using VADR

Resumo: Tens of thousands of influenza sequences are deposited into the GenBank database each year. The software tool FLAN has been used by GenBank since 2007 to validate and annotate incoming influenza sequence submissions, and has been publicly available as a webserver but not as a standalone tool. VADR is a general sequence validation and annotation software package used by GenBank for Norovirus, Dengue virus and SARS-CoV-2 virus sequence processing that is available as a standalone tool. We have created VADR influenza models based on the FLAN reference sequences and adapted VADR to accurately annotate influenza sequences. VADR and FLAN show consistent results on the vast majority of influenza sequences, and when they disagree VADR is usually correct. VADR can also accurately process influenza D sequences as well as influenza A H17, H18, H19, N10 and N11 subtype sequences, which FLAN cannot. VADR 1.6.3 and the associated influenza models are now freely available for users to download and use.

Autores: Eric P Nawrocki, V. C. Calhoun, E. L. Hatcher, L. Yankie

Última atualização: 2024-03-25 00:00:00

Idioma: English

Fonte URL: https://www.biorxiv.org/content/10.1101/2024.03.21.585980

Fonte PDF: https://www.biorxiv.org/content/10.1101/2024.03.21.585980.full.pdf

Licença: https://creativecommons.org/publicdomain/zero/1.0/

Alterações: Este resumo foi elaborado com a assistência da AI e pode conter imprecisões. Para obter informações exactas, consulte os documentos originais ligados aqui.

Obrigado ao biorxiv pela utilização da sua interoperabilidade de acesso aberto.

Artigos semelhantes