Simple Science

Ciência de ponta explicada de forma simples

# Biologia# Bioinformática

Desafios na Identificação de Proteínas Antigas

Analisando as dificuldades em estudar proteínas antigas e possíveis soluções.

Ismael Rodriguez Palomo, B. A. B. Nair, Y. Chiang, J. Dekker, B. Dartigues, M. Mackie, M. Evans, R. Macleod, J. Olsen, M. J. Collins

― 8 min ler


Desafios do Estudo deDesafios do Estudo deProteínas Antigasuma tarefa complicada.Identificar proteínas antigas ainda é
Índice

Proteômica refere-se ao estudo das proteínas, especialmente suas estruturas e funções. Pesquisadores usam softwares especializados para identificar e medir proteínas em várias amostras, muitas vezes com a ajuda de uma técnica chamada Espectrometria de Massa. Esse método ajuda a analisar misturas complexas de proteínas e a procurar modificações que acontecem depois que as proteínas são feitas. A busca por entender as proteínas é vital em muitos campos, incluindo medicina, biologia e até arqueologia.

Tradicionalmente, a maioria dos estudos focava em tecidos específicos de organismos conhecidos. Esses estudos costumam comparar os espectros de massa, que são os gráficos visuais que representam a massa das partículas, com bancos de dados recheados de proteínas conhecidas para encontrar correspondências. No entanto, existem muitos desafios, especialmente ao estudar amostras complexas, como aquelas de microbiomas ou restos antigos.

O Papel da Espectrometria de Massa

A espectrometria de massa é uma ferramenta poderosa usada na proteômica. Ela permite que cientistas analisem a massa e a estrutura das proteínas. Quando as proteínas são quebradas em pedaços menores chamados Peptídeos, a espectrometria de massa consegue medir suas massas e produzir espectros que as representam.

Os pesquisadores costumam usar duas abordagens com dados de espectrometria de massa: busca em banco de dados e Sequenciamento De Novo. Na busca em banco de dados, os espectros são comparados a uma lista pré-existente de proteínas conhecidas. Já o sequenciamento de novo não depende de nenhum banco de dados e tenta montar as sequências de proteínas diretamente dos dados.

O Desafio das Amostras Complexas

Embora a técnica de busca em banco de dados tenha sido eficaz com amostras modernas, estudos mostram que uma parte significativa dos espectros permanece não identificada ao analisar amostras complexas. Por exemplo, descobriu-se que cerca de 75% dos espectros analisados não têm correspondência em nenhuma proteína nos bancos de dados padrão.

Amostras complexas podem ser desafiadoras por vários motivos. Elas podem conter proteínas desconhecidas ou sequências altamente variáveis que são difíceis de rastrear. Isso é especialmente verdade para proteínas antigas e amostras degradadas, onde as estruturas podem ter sido quebradas ao longo do tempo.

O que é Palaeoproteômica?

A palaeoproteômica é um subcampo focado no estudo de proteínas antigas, frequentemente descobertas em sites arqueológicos. Essas proteínas podem estar fragmentadas e modificadas devido ao tempo, tornando a identificação difícil. As técnicas usadas em tecidos modernos muitas vezes falham quando aplicadas a amostras antigas. Muitos espectros antigos permanecem não identificados devido à degradação e perda de informação ao longo do tempo.

O estudo de proteínas antigas pode fornecer insights sobre as dietas e estilos de vida de populações passadas. No entanto, a natureza degradada dessas proteínas apresenta obstáculos significativos à identificação delas.

Problemas na Identificação de Proteínas Antigas

O sequenciamento de novo desempenha um papel vital no estudo de proteínas antigas. Essa técnica permite que os pesquisadores infiram sequências sem depender de bancos de dados existentes. No entanto, isso vem com seus desafios. Erros no sequenciamento podem ocorrer, especialmente com amostras degradadas, dificultando a validação dos achados.

Além disso, conforme mais proteínas são analisadas, a necessidade de identificação precisa se torna primordial. A comunidade de pesquisadores que trabalha nesse campo reconhece a necessidade de padrões rigorosos ao analisar dados antigos. Esses padrões incluem a consideração de modificações pós-traducionais e a seleção de bancos de dados bem representados.

Limitações dos Métodos Atuais

Embora os métodos atuais estejam sendo usados extensivamente, há uma falta de avaliação sistemática de sua eficácia na identificação de proteínas antigas. Novas estratégias e softwares estão sendo constantemente desenvolvidos. Assim, há um crescente pedido para que os dados brutos dos estudos sejam tornados publicamente acessíveis para permitir reanálises e validações.

Ao estudar proteínas antigas, os pesquisadores frequentemente enfrentam desafios ao selecionar parâmetros para suas análises. Essas seleções impactam o espaço de busca, os requisitos computacionais e a significância de suas descobertas. Um espaço de busca muito grande pode causar pressão computacional e proteínas mal identificadas, enquanto um espaço muito pequeno pode deixar de fora componentes importantes da amostra.

Configuração Experimental e Metodologia

Para entender melhor a identificação de proteínas degradadas, os pesquisadores costumam conduzir experimentos controlados. Por exemplo, em um estudo, uma proteína comum chamada β-Lactoglobulina foi aquecida por diferentes períodos para simular níveis variados de degradação. O objetivo era avaliar o quão bem diferentes ferramentas de software poderiam identificar peptídeos dessas amostras de proteínas degradadas.

O desenho experimental incluiu dissolver a β-Lactoglobulina em água e aquecê-la por intervalos de tempo específicos. Amostras foram coletadas em diferentes estágios, submetidas a vários processos como digestão enzimática e então analisadas usando espectrometria de massa.

Ferramentas de Software para Identificação

Vários programas de software estão disponíveis para analisar dados de espectrometria de massa. Essas ferramentas podem ser divididas em duas categorias principais: softwares de busca estreita e softwares de busca aberta. Ferramentas de busca estreita são projetadas para trabalhar com bancos de dados bem definidos, enquanto ferramentas de busca aberta podem identificar uma variedade maior de peptídeos, incluindo aqueles com modificações não contabilizadas.

Usar diferentes softwares e combinações de parâmetros pode levar a resultados de identificação variados. Alguns softwares podem se sair melhor na identificação de proteínas em amostras menos degradadas, enquanto outros podem ter um desempenho melhor em condições mais degradadas.

Resultados e Descobertas

Em experimentos controlados, os pesquisadores encontraram diferenças significativas no número de peptídeos identificados com base no software utilizado e no nível de degradação das amostras. Geralmente, à medida que o grau de degradação aumentava, a capacidade de identificar peptídeos diminuía. Por exemplo, menos de 30% dos espectros em amostras altamente degradadas foram correspondidos a peptídeos.

Entre os softwares comparados, os métodos de busca aberta tendiam a identificar mais peptídeos do que os métodos de busca estreita. Ferramentas de busca aberta foram particularmente úteis para detectar peptídeos que tinham modificações não contabilizadas nos bancos de dados tradicionais.

Cobertura e Viés de Identificação

Durante a análise, os pesquisadores frequentemente encontraram viés de cobertura, onde certas regiões da proteína eram identificadas com mais frequência do que outras. Fatores como a flexibilidade das estruturas das proteínas, a exposição ao solvente e a presença de possíveis regiões formadoras de amiloides influenciaram quais peptídeos foram detectados com sucesso.

As descobertas indicaram que as características estruturais dos peptídeos, como sua carga e estabilidade, desempenharam um papel crucial na capacidade deles de serem identificados. Por exemplo, regiões altamente flexíveis ou carregadas podem ser mais suscetíveis à degradação, tornando-as mais difíceis de analisar.

Em Direção a um Pipeline de Palaeoproteômica Abrangente

Dadas as complexidades do estudo de proteínas antigas, os pesquisadores estão defendendo uma abordagem padronizada que integre múltiplos métodos. Esse pipeline abrangente combinaria sequenciamento de novo, buscas abertas e buscas estreitas para maximizar a identificação de peptídeos relevantes e modificações em amostras antigas.

O objetivo é construir um fluxo de trabalho que permita uma identificação mais confiável, ao mesmo tempo em que expande o potencial para descobrir sequências novas. Essa abordagem integrada poderia melhorar a compreensão das proteínas antigas e fornecer dados valiosos para estudos arqueológicos e históricos.

Conclusão

À medida que o campo da palaeoproteômica continua a evoluir, os pesquisadores permanecem comprometidos em superar os desafios impostos pelas proteínas degradadas. Refinando técnicas, melhorando ferramentas de software e defendendo o compartilhamento de dados abertos, o estudo de proteínas antigas pode revelar informações cruciais sobre nosso passado. Através de metodologias combinadas, os cientistas esperam desbloquear novos insights sobre as dietas e estilos de vida de populações antigas e entender melhor a história do desenvolvimento humano.

Fonte original

Título: Benchmarking the identification of a single degraded protein to explore optimal search strategies for ancient proteins

Resumo: Palaeoproteomics is a rapidly evolving discipline, and practitioners are constantly developing novel strategies for the analyses and interpretations of complex, degraded protein mixtures. The community has also established standards of good practice to interrogate our data. However, there is a lack of a systematic exploration of how these affect the identification of peptides, post-translational modifications (PTMs), proteins and their significance (through the False Discovery Rate) and correctness. We systematically investigated the performance of a wide range of sequencing tools and search engines in a controlled system: the experimental degradation of the single purified bovine {beta}-lactoglobulin (BLG), heated at 95 {degrees}C and pH 7 for 0, 4 and 128 days. We target BLG since it is one of the most robust and ubiquitous proteins in the archaeological record. We tested different reference database choices, a targeted dairy protein one, and the whole bovine proteome and the three digestion options (tryptic-, semi-tryptic- and non-specific searches), in order to evaluate the effects of search space and the identification of peptides. We also explored alternative strategies, including open search that allows for the global identification of PTMs based upon wide precursor mass tolerance and de novo sequencing to boost sequence coverage. We analysed the samples using Mascot, MaxQuant, Metamorpheus, pFind, Fragpipe and DeNovoGUI (pepNovo+, DirecTag, Novor), benchmarked these tools and discuss the optimal strategy for the characterisation of ancient proteins. We also studied physicochemical properties of the BLG that correlate with bias in the identification coverage.

Autores: Ismael Rodriguez Palomo, B. A. B. Nair, Y. Chiang, J. Dekker, B. Dartigues, M. Mackie, M. Evans, R. Macleod, J. Olsen, M. J. Collins

Última atualização: 2024-10-22 00:00:00

Idioma: English

Fonte URL: https://www.biorxiv.org/content/10.1101/2023.12.15.571577

Fonte PDF: https://www.biorxiv.org/content/10.1101/2023.12.15.571577.full.pdf

Licença: https://creativecommons.org/licenses/by-nc/4.0/

Alterações: Este resumo foi elaborado com a assistência da AI e pode conter imprecisões. Para obter informações exactas, consulte os documentos originais ligados aqui.

Obrigado ao biorxiv pela utilização da sua interoperabilidade de acesso aberto.

Mais de autores

Artigos semelhantes