Cascadia: Avançando a Sequenciação de Peptídeos a partir de Dados DIA
Um novo modelo melhora a análise de proteínas usando dados de espectrometria de massa.
― 8 min ler
Índice
- Técnicas de Espectrometria de Massa
- Ferramentas para Sequenciamento de Proteínas
- Apresentando Cascadia: Um Novo Modelo para Sequenciamento de Peptídeos
- O Fluxo de Trabalho do Cascadia
- Avaliação de Desempenho do Cascadia
- Aplicação do Cascadia na Descoberta de Variantes Codificadoras
- Descobrindo Novas Sequências de Anticorpos
- Conclusão
- Fonte original
- Ligações de referência
Proteínas são componentes vitais dos organismos vivos, desempenhando papéis importantes na estrutura, função e regulação dos tecidos e órgãos do corpo. Entender as proteínas envolve estudar sua estrutura e função, e um método importante para isso é a Espectrometria de Massa. A espectrometria de massa ajuda os cientistas a analisar a composição das proteínas, quebrando-as em pedaços menores chamados Peptídeos, que são então estudados quanto às suas sequências.
Um dos desafios na análise de proteínas por meio da espectrometria de massa é descobrir a ordem dos aminoácidos em um peptídeo com base nos dados coletados durante os experimentos. Essa tarefa é chamada de Sequenciamento De Novo, o que significa determinar a sequência de aminoácidos de um peptídeo sem saber previamente o que é esse peptídeo. Esse processo é complexo, especialmente ao lidar com grandes conjuntos de dados das modernas técnicas de espectrometria de massa.
Técnicas de Espectrometria de Massa
Tradicionalmente, a espectrometria de massa para análise de proteínas utilizava um método chamado aquisição dependente de dados (DDA). Nesse enfoque, o espectrômetro de massa coleta dados de um peptídeo por vez. Cada vez que ele detecta um peptídeo, ele produz um espectro de fragmentação, que é uma representação visual do perfil de massa do peptídeo. Os cientistas podem ligar diretamente esse espectro a uma única sequência de peptídeo, tornando mais fácil determinar a sequência.
Porém, uma abordagem mais nova chamada Aquisição Independente de Dados (DIA) surgiu. No DIA, o espectrômetro de massa coleta dados de muitos peptídeos simultaneamente, o que significa que os sinais podem se misturar. Isso leva a um conjunto de dados mais complexo porque a informação sobre um único peptídeo está espalhada por múltiplos espectros. Isso torna muito mais difícil determinar a sequência do peptídeo, já que não está claro quais partes dos dados pertencem a qual peptídeo.
Ferramentas para Sequenciamento de Proteínas
Várias ferramentas foram desenvolvidas para enfrentar os desafios do sequenciamento de novo, especialmente no contexto dos dados de DIA. Algumas delas utilizam modelos de aprendizado de máquina, especificamente um tipo chamado transformadores. Transformadores são projetados para lidar com sequências de dados, tornando-os adequados para tarefas de sequenciamento de proteínas. Eles tratam o problema do sequenciamento como uma tradução de uma representação do espectro de massa em uma sequência de aminoácidos.
Um método comum é criar pseudo-espectros a partir dos dados de DIA que se assemelham aos espectros gerados no DDA. No entanto, esse método tem limitações. Nem todos os peptídeos produzem um sinal claro em DDA, o que significa que muitos peptídeos de baixa abundância podem ser perdidos. Além disso, a aparência dos espectros de DIA pode diferir significativamente daqueles produzidos pelo DDA, o que pode dificultar que os modelos existentes treinados em dados de DDA funcione bem em conjuntos de dados de DIA.
Outro método utiliza um modelo específico de aprendizado profundo, o DeepNovo-DIA, projetado para trabalhar com dados de DIA. Esse modelo inclui vários componentes para processar dados de uma maneira que capture as relações entre diferentes espectros e as sequências de aminoácidos.
Apresentando Cascadia: Um Novo Modelo para Sequenciamento de Peptídeos
Um novo modelo chamado Cascadia foi desenvolvido para abordar algumas limitações dos métodos existentes. O Cascadia tem como objetivo melhorar o sequenciamento de novo a partir dos dados de DIA, extraindo sistematicamente pequenas unidades de dados conhecidas como “espectros aumentados.” Esses espectros aumentados incorporam informações de espectros adjacentes para fornecer uma visão mais completa dos sinais relacionados a um peptídeo específico.
Cascadia utiliza uma arquitetura baseada em transformadores, permitindo que processe os espectros aumentados e preveja as sequências de peptídeos de forma eficaz. O modelo é treinado usando uma grande coleção de dados DIA anotados, e os resultados mostram que ele supera significativamente os métodos existentes.
O Fluxo de Trabalho do Cascadia
O Cascadia funciona primeiro coletando um espectro observado e criando uma representação latente de cada pico nesse espectro. Uma camada decodificadora do transformador então utiliza essa representação para prever a sequência de aminoácidos do peptídeo. O modelo precisa superar dois desafios principais:
Em um experimento de DIA, o sinal de um único peptídeo está espalhado por vários espectros. Para resolver isso, o Cascadia pega múltiplos espectros que estão temporariamente próximos um do outro, permitindo que o modelo reúna o máximo de informações relevantes possível.
Não há uma massa precursora única conhecida para prever a sequência do peptídeo. Em vez disso, o Cascadia captura dados de todos os espectros disponíveis e os processa coletivamente. Essa flexibilidade permite que o modelo extraia informações sobre o peptídeo sem depender apenas de um sinal precursivo conhecido.
Na prática, isso significa que o Cascadia pode usar o sinal bruto de MS/MS diretamente e não depende de etapas iniciais de extração de características. Isso é um avanço significativo, já que permite que o modelo examine todas as características relevantes dos dados de entrada.
Avaliação de Desempenho do Cascadia
Para medir como o Cascadia se sai, os pesquisadores avaliam o número de sequências de peptídeos distintas que o modelo identifica e combina com um banco de dados de referência. Esse processo difere dos métodos tradicionais, que costumam depender de espectros que um motor de busca pode identificar. Ao usar uma abordagem em nível de peptídeo, a avaliação reflete o número real de peptídeos detectados em uma corrida de espectrometria de massa.
O Cascadia mostrou descobrir muitos mais peptídeos do que os métodos existentes, demonstrando um desempenho forte em vários conjuntos de dados. Por exemplo, em um limite de precisão alto, o Cascadia pode prever com precisão muitos peptídeos distintos que o DeepNovo-DIA tem dificuldade. Essa melhoria é especialmente notável para peptídeos de baixa abundância que podem não produzir um sinal forte nos métodos tradicionais.
Aplicação do Cascadia na Descoberta de Variantes Codificadoras
As capacidades do Cascadia vão além de apenas identificar peptídeos. Ele também foi usado em estudos para descobrir variantes codificadoras, que são mudanças na sequência de aminoácidos das proteínas que podem ter implicações importantes para doenças e funções biológicas.
Em experimentos usando dados de DIA de amostras de pele humana, o Cascadia conseguiu identificar variantes que foram confirmadas por outros métodos de sequenciamento. Essa evidência apoia a confiabilidade do modelo Cascadia em fornecer previsões precisas de peptídeos.
Descobrindo Novas Sequências de Anticorpos
O Cascadia também foi aplicado para analisar amostras de plasma humano para descobrir peptídeos novos, particularmente de anticorpos. Anticorpos são proteínas altamente variáveis que desempenham papéis cruciais na resposta imune. A análise revelou muitas sequências potenciais de anticorpos que não corresponderam a bancos de dados de referência existentes, o que sugere que o Cascadia pode ajudar a identificar novas variantes de anticorpos que ainda não estão documentadas.
Ao comparar essas previsões a um banco de dados de referência, os pesquisadores confirmaram que uma parte significativa dos peptídeos de anticorpos previstos se alinha bem com sequências conhecidas, validando ainda mais a eficácia do Cascadia na detecção de peptídeos.
Conclusão
Em conclusão, o Cascadia representa um avanço significativo no campo da proteômica, especialmente na análise de dados de espectrometria de massa. Sua capacidade de processar dados de forma mais eficaz do que modelos anteriores permite uma gama mais ampla de descobertas de peptídeos, incluindo sequências de baixa abundância e novas.
O Cascadia fornece aos pesquisadores uma ferramenta poderosa para explorar estruturas e funções de proteínas, podendo levar a novos insights em várias áreas como imunologia, ciência forense e estudos ambientais. À medida que a tecnologia de espectrometria de massa continua a avançar, métodos como o Cascadia serão cruciais para acompanhar a crescente complexidade dos dados biológicos.
Desenvolvimentos futuros provavelmente se concentrarão em refinar o Cascadia para aplicações específicas, melhorando ainda mais sua sensibilidade e incorporando recursos adicionais de dados que poderiam aprimorar seu desempenho.
Título: A transformer model for de novo sequencing of data-independent acquisition mass spectrometry data
Resumo: A core computational challenge in the analysis of mass spectrometry data is the de novo sequencing problem, in which the generating amino acid sequence is inferred directly from an observed fragmentation spectrum without the use of a sequence database. Recently, deep learning models have made significant advances in de novo sequencing by learning from massive datasets of high-confidence labeled mass spectra. However, these methods are primarily designed for data-dependent acquisition (DDA) experiments. Over the past decade, the field of mass spectrometry has been moving toward using data-independent acquisition (DIA) protocols for the analysis of complex proteomic samples due to their superior specificity and reproducibility. Hence, we present a new de novo sequencing model called Cascadia, which uses a transformer architecture to handle the more complex data generated by DIA protocols. In comparisons with existing approaches for de novo sequencing of DIA data, Cascadia achieves state-of-the-art performance across a range of instruments and experimental protocols. Additionally, we demonstrate Cascadias ability to accurately discover de novo coding variants and peptides from the variable region of antibodies.
Autores: William Stafford Noble, J. Sanders, B. Wen, P. Rudnick, R. Johnson, C. C. Wu, S. Oh, M. J. MacCoss
Última atualização: 2024-06-04 00:00:00
Idioma: English
Fonte URL: https://www.biorxiv.org/content/10.1101/2024.06.03.597251
Fonte PDF: https://www.biorxiv.org/content/10.1101/2024.06.03.597251.full.pdf
Licença: https://creativecommons.org/licenses/by/4.0/
Alterações: Este resumo foi elaborado com a assistência da AI e pode conter imprecisões. Para obter informações exactas, consulte os documentos originais ligados aqui.
Obrigado ao biorxiv pela utilização da sua interoperabilidade de acesso aberto.