Avanços na Previsão de Regiões Intrinsecamente Desordenadas de Proteínas
Novos métodos melhoram a previsão de regiões de proteínas que não têm estrutura estável.
― 8 min ler
Índice
- Métodos para Estudar as IDRs
- Avaliações da Comunidade sobre as Ferramentas de Previsão de IDR
- Avanços na Previsão de IDR
- Analisando IDRs do Banco de Dados de Proteínas
- Construindo o Conjunto de Treinamento
- Recursos de Entrada para Previsão
- Arquitetura da Rede Neural
- Treinamento do Modelo de Rede Neural
- Melhorando Previsões com Técnicas de Conjunto e Suavização
- Métricas de Avaliação
- Resultados e Discussão
- Comparação com Outros Métodos
- Direções Futuras
- Conclusão
- Fonte original
- Ligações de referência
As proteínas são moléculas essenciais nos organismos vivos, desempenhando uma variedade de funções. Essas funções muitas vezes dependem da forma da proteína, que geralmente é uma estrutura tridimensional fixa. No entanto, algumas partes das proteínas, conhecidas como regiões intrinsecamente desordenadas (IDRs), não têm uma forma estável. Em vez disso, elas podem mudar de forma e funcionar sem se dobrarem completamente em uma estrutura específica. Estudos recentes mostraram que essas IDRs são bastante comuns, representando mais de 30% das proteínas em organismos com células complexas (eucariotos). As IDRs desempenham papéis importantes em muitos processos biológicos.
Métodos para Estudar as IDRs
Para entender as IDRs, os cientistas usam várias técnicas de laboratório, como cristalografia de raios-X, espectroscopia de ressonância magnética nuclear (RMN) e dicromia circular. No entanto, estudar essas regiões pode ser desafiador devido à sua natureza flexível. Como apenas um número limitado de IDRs foi estudado em detalhes, os pesquisadores desenvolveram muitos métodos baseados em computador para prever onde as IDRs estão nas sequências de proteínas. Essas ferramentas de Previsão têm se mostrado úteis tanto para entender proteínas específicas quanto para analisar grandes conjuntos de proteínas.
Avaliações da Comunidade sobre as Ferramentas de Previsão de IDR
O desempenho de diferentes ferramentas de previsão de IDR foi avaliado por meio de competições impulsionadas pela comunidade. Uma dessas competições é a Avaliação Crítica da Previsão da Estrutura de Proteínas (CASP), e outra mais recente chamada Avaliação Crítica da Desordem Intrínseca de Proteínas (CAID). Ao longo dos anos, o número de ferramentas de previsão de IDR aumentou significativamente, indicando um interesse crescente nessa área. Os participantes enviam seu software de previsão para comparar seus métodos com alvos proteicos comuns, que têm anotações de IDR conhecidas.
No CAID, não apenas a capacidade de prever IDRs é avaliada, mas também a previsão de locais de ligação dentro dessas regiões. Os participantes usam um método que atribui pontuações a cada aminoácido em uma proteína, mostrando a probabilidade de que ele faça parte de uma região intrinsecamente desordenada ou de um local de ligação. Edições recentes do CAID mostraram um aumento substancial no número de métodos de previsão sendo avaliados, demonstrando o foco crescente nesse desafio.
Avanços na Previsão de IDR
Um novo servidor web chamado Portal de Previsão do CAID foi desenvolvido para executar todos os métodos das competições do CAID. Essa plataforma oferece resultados padronizados e permite que os usuários comparem diferentes métodos de forma conveniente. As avaliações mais recentes mostraram que o desempenho entre vários métodos de previsão de IDR pode variar com base em diferentes benchmarks, destacando a necessidade de melhorias contínuas no software de previsão.
Recentemente, um novo método de aprendizado profundo chamado PredIDR foi criado para prever com precisão as IDRs em proteínas, focando especificamente naquelas regiões que estão ausentes nos dados de cristalografia de raios-X. Esse método reflete características de IDRs conhecidas e visa fornecer uma previsão mais confiável.
Banco de Dados de Proteínas
Analisando IDRs doPara analisar as IDRs, os pesquisadores extraíram sequências de proteínas de alta resolução do Banco de Dados de Proteínas (PDB). Selecionando apenas aquelas proteínas com uma identidade de sequência inferior a 25% e com mais de 51 resíduos, eles focaram em um conjunto diversificado de proteínas. Um resíduo desordenado é definido como aquele que não possui coordenadas tridimensionais em experimentos de raios-X. A análise incluiu apenas segmentos de pelo menos quatro resíduos desordenados consecutivos.
Usando as sequências de proteínas selecionadas, um conjunto de validação foi criado. Esse conjunto incluiu 597 cadeias com um total de mais de 151.000 resíduos, dos quais cerca de 8% foram identificados como desordenados. Conjuntos de dados adicionais também foram criados para validação adicional, contendo vários comprimentos de IDRs para simular condições do mundo real.
Conjunto de Treinamento
Construindo oComo a tarefa de previsão é um problema de classificação binária, os pesquisadores tiveram que preparar um conjunto de treinamento desequilibrado. O conjunto de treinamento foi formado pela combinação de sequências de IDR e sequências estruturais ordenadas, garantindo uma distribuição equilibrada de resíduos desordenados e ordenados. Eles então criaram exemplos negativos artificiais para garantir que o número de amostras positivas e negativas fosse igual.
Recursos de Entrada para Previsão
Para prever se um resíduo é desordenado ou ordenado, os pesquisadores representaram cada resíduo de proteína usando três recursos principais: perfil evolutivo, estrutura secundária e acessibilidade ao solvente. Esses recursos forneceram informações valiosas e foram obtidos através de ferramentas de previsão estabelecidas.
Rede Neural
Arquitetura daA tarefa de previsão foi realizada usando uma rede neural convolucional 2D (CNN). Essa arquitetura consiste em várias camadas, incluindo camadas de entrada, camadas convolucionais e camadas totalmente conectadas. O modelo processa os dados de entrada em pequenos segmentos, permitindo capturar padrões e melhorar as previsões de forma eficaz.
Treinamento do Modelo de Rede Neural
O modelo foi treinado usando mini-lotes de dados, e o processo de treinamento teve como objetivo reduzir os erros de previsão ajustando os parâmetros do modelo. Um algoritmo especializado conhecido como Adam foi usado para atualizar esses parâmetros, com foco na minimização dos erros nas previsões.
Melhorando Previsões com Técnicas de Conjunto e Suavização
Para melhorar a precisão das previsões, um método de conjunto foi utilizado. Essa abordagem envolveu o treinamento de vários modelos e a combinação de suas previsões para alcançar um resultado melhor. Além disso, uma técnica de suavização foi aplicada, reduzindo as previsões sobre uma janela deslizante focada em um resíduo específico, refinando assim a saída.
Métricas de Avaliação
Para avaliar o desempenho dos modelos de previsão, foram usadas duas medidas baseadas em probabilidade conhecidas como AUC_ROC e AUC_PR. Essas métricas ajudam a entender quão bem o modelo atribui pontuações de confiança a cada resíduo em termos de seu estado de desordem.
Resultados e Discussão
O PredIDR mostrou previsões eficazes para regiões intrinsecamente desordenadas em proteínas, especialmente para resíduos ausentes nos dados de raios-X. O desempenho do método melhorou com a combinação de vários recursos e através do uso de técnicas de conjunto e suavização. Os melhores resultados foram alcançados ao usar um tamanho de janela específico para suavização, que variou dependendo do conjunto de dados.
O PredIDR foi testado contra métodos de previsão existentes em competições, onde superou muitas outras abordagens. Isso indica seu potencial como uma ferramenta confiável para identificar IDRs em proteínas.
Comparação com Outros Métodos
O PredIDR foi avaliado em comparação com outros métodos de previsão de IDR em competições. Ele mostrou uma melhoria significativa em relação a várias outras ferramentas, destacando sua eficácia na detecção de regiões intrinsecamente desordenadas. O método teve um desempenho particularmente bom em conjuntos de dados com uma porcentagem maior de resíduos desordenados.
Direções Futuras
Avançando, o objetivo é aprimorar ainda mais os métodos de previsão, incluindo dados de anotações não baseadas em raios-X juntamente com os dados existentes. Essas melhorias podem levar a previsões ainda mais precisas de IDRs e suas funções.
Conclusão
O desenvolvimento do PredIDR marca um avanço importante na previsão de regiões intrinsecamente desordenadas nas proteínas. Combinando vários recursos e empregando técnicas sofisticadas de aprendizado de máquina, esse método fornece uma ferramenta poderosa para pesquisadores que estudam a estrutura e a função das proteínas. À medida que o campo continua a crescer, esses métodos preditivos desempenharão um papel crucial em aprimorar nossa compreensão da natureza dinâmica das proteínas e suas interações em sistemas biológicos.
Título: PredIDR: Accurate prediction of protein intrinsic disorder regions using deep convolutional neural network
Resumo: The involvement of protein intrinsic disorder in essential biological processes, it is well known in structural biology. However, experimental methods for detecting intrinsic structural disorder and directly measuring highly dynamic behavior of protein structure are limited. To address this issue, several computational methods to predict intrinsic disorder from protein sequences were developed and their performance is evaluated by the Critical Assessment of protein Intrinsic Disorder (CAID). In this paper, we describe a new computational method, PredIDR, which provides accurate prediction of intrinsically disordered regions in proteins, mimicking experimental X-ray missing residues. Indeed, missing residues in Protein Data Bank (PDB) were used as positive examples to train a deep convolutional neural network which produces two types of output for short and long regions. PredIDR took part in the second round of CAID and was as accurate as the top state-of-the-art IDR prediction methods. PredIDR can be freely used through the CAID Prediction Portal available at https://caid.idpcentral.org/portal or downloaded as a Singularity container from https://biocomputingup.it/shared/caid-predictors/.
Autores: Damiano Piovesan, K.-S. Han, S.-J. Yun, C.-S. Kim, C.-P. Ri, A. Del Conte
Última atualização: 2024-07-24 00:00:00
Idioma: English
Fonte URL: https://www.biorxiv.org/content/10.1101/2024.07.24.604908
Fonte PDF: https://www.biorxiv.org/content/10.1101/2024.07.24.604908.full.pdf
Licença: https://creativecommons.org/licenses/by/4.0/
Alterações: Este resumo foi elaborado com a assistência da AI e pode conter imprecisões. Para obter informações exactas, consulte os documentos originais ligados aqui.
Obrigado ao biorxiv pela utilização da sua interoperabilidade de acesso aberto.