MultiStageSearch: Avançando na Identificação de Patógenos
Um novo método melhora a detecção de linhagens virais usando proteômica e genômica.
― 9 min ler
Índice
Patógenos virais e bacterianos podem trazer riscos significativos à saúde pública, como a gente viu na pandemia recente causada pelo SARS-CoV-2. Em casos de surtos, é importante detectar esses patógenos rapidamente e com precisão. Os métodos tradicionais de diagnóstico, como o RT-PCR, têm uma limitação: eles precisam que você já saiba qual patógeno específico está procurando. É aí que métodos mais abertos, como a genômica e a Proteômica, começam a ser úteis, principalmente para monitorar vírus e identificar patógenos desconhecidos.
A genômica virou uma ferramenta chave para identificar patógenos virais, mas pesquisas recentes mostraram que a proteômica também pode dar insights valiosos. A proteômica estuda as proteínas, que são essenciais para entender como os patógenos funcionam. Um método comum na proteômica é a Espectrometria de Massa em tandem ligada à cromatografia líquida, conhecida como LC-MS/MS. Essa técnica permite analisar muitos amostras ao mesmo tempo e fornece informações detalhadas sobre as proteínas presentes em uma amostra.
Quando analisam dados proteômicos, os pesquisadores normalmente comparam suas descobertas com Bancos de dados de referência que listam proteínas conhecidas. Existem diferentes bancos de dados disponíveis, alguns dos quais têm seus dados curados para qualidade. No entanto, esses bancos de dados curados podem não representar bem todos os tipos de organismos, principalmente os que são menos comuns na pesquisa ou para estudos virais. Por isso, pode ser benéfico incluir todos os dados de proteínas disponíveis, mesmo de fontes não curadas, para melhorar a identificação taxonômica.
Visão Geral do MultiStageSearch
Para tirar o máximo proveito dos dados de proteínas disponíveis, uma nova abordagem chamada MultiStageSearch foi desenvolvida. É um processo em várias etapas voltado para identificar cepas virais de maneira detalhada. O fluxo de trabalho consiste em vários passos de busca em bancos de dados que permitem aos pesquisadores coletar dados mais precisos sobre amostras virais.
No primeiro passo, o MultiStageSearch realiza uma busca padrão em um banco de dados proteômico usando um banco de dados de referência geral. Com base nos resultados, candidatos potenciais para a identificação taxonômica são determinados e um banco de dados especializado é criado. Esse banco inclui informações genômicas que ajudam na identificação de cepas específicas.
O MultiStageSearch é projetado para lidar com a complexidade dos dados biológicos e é implementado em Python como parte de um fluxo de trabalho do Snakemake. Isso facilita para os pesquisadores realizarem análises em diferentes tipos de amostras e condições.
Etapas do Fluxo de Trabalho
Entrada e Configuração Inicial
Para usar o MultiStageSearch, os usuários devem fornecer algumas informações chave, incluindo:
- Um arquivo com dados de espectrometria de massa
- Um arquivo de parâmetros para a ferramenta de busca
- Um banco de dados de referência
- Um arquivo de mapeamento que conecta os acessos das proteínas aos IDs Taxonômicos
Os usuários também podem incluir um banco de dados de hospedeiros e um banco de dados de contaminantes para filtrar dados irrelevantes. Cada passo do fluxo de trabalho processa os dados para garantir que apenas as informações mais relevantes sejam consideradas.
Filtragem de Hospedeiros
Nesta etapa opcional, os pesquisadores podem filtrar dados relacionados a um hospedeiro específico ou a contaminantes. Após identificar possíveis correspondências entre os dados de espectrometria de massa e o banco de dados de referência, quaisquer correspondências irrelevantes ligadas ao hospedeiro especificado são removidas. Isso garante que os passos seguintes se concentrem apenas nos dados relevantes.
Busca no Banco de Dados de Referência
Usando o banco de dados de referência fornecido pelo usuário, o MultiStageSearch realiza outra busca. É recomendável escolher um banco de dados amplo, especialmente para amostras virais. Se houver informações adicionais sobre a amostra, como a espécie do hospedeiro, o banco de dados pode ser refinado ainda mais.
Uma vez finalizada a busca, o programa compila um relatório que inclui informações sobre as Correspondências Proteína-Espectro (PSMs). A partir dessas PSMs, espécies candidatas são identificadas usando um sistema de pesagem, que considera quantas proteínas diferentes correspondem a cada PSM. Isso ajuda a garantir que os táxons mais relevantes sejam levados para os próximos passos da análise.
Genômicos
Download de DadosA próxima etapa envolve o download automático de informações genômicas para as cepas candidatas identificadas a partir de um banco de dados. Vários desafios podem surgir durante esse processo, principalmente devido à forma como os genomas estão catalogados nos bancos de dados existentes.
Para lidar com esses desafios, um conjunto de parâmetros definidos pelo usuário ajuda a refinar a busca pelos genomas das cepas candidatas. Parâmetros chave incluem limitações no número de espécies consideradas, diferenças de peso, tamanhos de sequência e se apenas genomas completos devem ser incluídos na busca.
Processamento de Dados Genômicos
Uma vez que os genomas são baixados, o programa gera um banco de dados de referência proteogenômica, que combina informações de fontes proteicas e genômicas. Essa referência é crucial para o próximo passo de busca no banco de dados.
Depois de filtrar dados genômicos duplicados para evitar redundância, o programa prepara o banco de dados limpo para processamento adicional. Esse banco de dados de referência será então usado para identificar proteínas nos dados de espectrometria de massa durante a próxima fase de busca.
Busca no Banco de Dados Genômico
Nesta etapa, o MultiStageSearch utiliza as informações genômicas coletadas anteriormente para realizar outra busca. Como os dados genômicos são geralmente mais abundantes e detalhados do que os dados proteômicos, essa etapa costuma gerar um maior número de correspondências. As PSMs resultantes são novamente pesadas e agregadas de acordo com seus IDs taxonômicos associados.
Análise Filogenética
Como uma etapa opcional, os pesquisadores podem construir uma árvore filogenética com base nos principais táxons identificados durante as buscas anteriores. Isso envolve filtrar os dados genômicos para focar nos táxons com as melhores pontuações e alinhar suas sequências. O alinhamento é então usado para construir uma árvore, que ilustra as relações entre as cepas.
Busca Final no Banco de Dados
A etapa final de busca utiliza os dados genômicos dos táxons com as melhores pontuações para refinar ainda mais os resultados. Concentrando-se em um número menor de entradas, essa etapa pode fornecer uma precisão de identificação melhorada.
Avaliação da Adequação do Banco de Dados
O MultiStageSearch também inclui uma forma de avaliar a qualidade dos bancos de dados que estão sendo usados. Comparando os resultados de previsões de peptídeos de novo com bancos de dados existentes, o programa pode sinalizar quaisquer potenciais problemas com a adequação do banco de dados. Isso ajuda os usuários a entenderem se os bancos de dados utilizados são apropriados para suas amostras específicas.
Resultados e Saídas
Ao final do processo, o MultiStageSearch produz várias saídas que podem ser úteis para análises futuras. Esses incluem relatórios sobre as cepas identificadas, as relações entre as cepas e a qualidade dos dados usados nas buscas.
Além disso, o programa gera representações visuais dos resultados, como gráficos e tabelas, que mostram as semelhanças e diferenças entre as proteínas identificadas. Isso torna mais fácil para os pesquisadores interpretarem e comunicarem suas descobertas.
Avaliação de Desempenho
Para validar a eficácia do MultiStageSearch, ele foi testado contra outras ferramentas existentes usando várias amostras virais. Os resultados mostraram que o MultiStageSearch pode identificar as cepas corretas com um alto grau de precisão. O programa teve um desempenho particularmente bom para cepas que não estão bem representadas nos bancos de dados atualmente disponíveis, destacando sua vantagem em superar os preconceitos dos bancos de dados.
Em alguns casos, o MultiStageSearch conseguiu identificar cepas que outras ferramentas não conseguiram, principalmente devido à sua capacidade de acessar uma gama mais ampla de informações genômicas. Isso é especialmente importante, pois fornece aos pesquisadores uma melhor compreensão da diversidade viral, especialmente durante surtos.
Desafios e Direções Futuras
Embora o MultiStageSearch tenha mostrado potencial, certos desafios ainda existem. Por exemplo, identificar cepas que têm sequências genéticas muito semelhantes pode ser difícil. Isso ficou evidente com amostras como a bronquite aviária e algumas cepas de adenovírus, onde o programa teve dificuldades para distinguir entre cepas estreitamente relacionadas.
Além disso, a implementação atual do programa foi testada apenas em amostras virais. Os pesquisadores agora estão avaliando a possibilidade de aplicar o MultiStageSearch em amostras bacterianas, que podem apresentar desafios diferentes devido a genomas mais longos e um maior número de cepas disponíveis.
Melhorias futuras também estão sendo planejadas, incluindo o desenvolvimento de modos especializados para vírus específicos, como o SARS-CoV-2. Essa é uma avenida crucial para a pesquisa, à medida que mais informações se tornam disponíveis sobre vírus que evoluem rapidamente.
Conclusão
O MultiStageSearch representa uma abordagem inovadora para identificar cepas virais, combinando proteômica e genômica avançadas. Ao empregar um fluxo de trabalho em várias etapas, ele aproveita uma variedade maior de dados, potencialmente levando a resultados mais precisos em pesquisas de saúde pública. À medida que o cenário dos patógenos evolui, ferramentas como o MultiStageSearch são essenciais para acompanhar a necessidade de métodos de identificação precisos. O desenvolvimento e refinamento contínuos desta ferramenta ajudarão a enfrentar desafios atuais e melhorar a precisão da identificação a nível de cepa em vários patógenos.
Título: MultiStageSearch: a multi-step proteogenomic workflow for taxonomic identification of viral proteome samples adressing database bias
Resumo: The recent years, with the global SARS-Cov-2 pandemic, have shown the importance of strain level identification of viral pathogens. While the gold-standard approach for unkown viral sample identification remains genomics, studies have shown the necessity and advantages of orthogonal experimental approaches such as proteomics, based on proteomic database search methods. The databases required as references for both proteins and genome sequences are known to be biased towards certain taxa, such as pathogenic strains or species, or common model organisms. Aditionally, the proteomic databases are not as comprehensive as the genomic databases. We present MultiStageSearch, an iterative database search approach for the taxonomic identification of viral samples combining proteomic and genomic databases. The potentially present species and strains are inferred using a generalist proteomic reference database. MultiStageSearch then automatically creates a proteogenomic database. This database is further pre-processed byfiltering for duplicates as well as clustering of identical ORFs to address potential bias present in the genomic database. Furthermore, the workflow is independent of the strain level NCBI taxonomy, enabling the inference of strains that are not present in the NCBI taxonomy. We performed a benchmark on several viral samples to demonstrate the performance of the strain level taxonomic inference. The benchmark shows superior performance compared to state of the art methods for untargeted strain level inference using proteomic data while being independent of the NCBI taxonomy at strain level.
Autores: Thilo Muth, J. Pipart, T. Holstein, L. Martens
Última atualização: 2024-05-20 00:00:00
Idioma: English
Fonte URL: https://www.biorxiv.org/content/10.1101/2024.05.15.594287
Fonte PDF: https://www.biorxiv.org/content/10.1101/2024.05.15.594287.full.pdf
Licença: https://creativecommons.org/licenses/by/4.0/
Alterações: Este resumo foi elaborado com a assistência da AI e pode conter imprecisões. Para obter informações exactas, consulte os documentos originais ligados aqui.
Obrigado ao biorxiv pela utilização da sua interoperabilidade de acesso aberto.