Simple Science

Ciência de ponta explicada de forma simples

# Biologia# Bioinformática

ComplexTome: Avançando a Pesquisa de Interação Proteica

Novos conjuntos de dados e sistemas melhoram a análise de interações proteicas na literatura biomédica.

― 10 min ler


ComplexTome AumentaComplexTome AumentaEstudos de Proteínaspesquisa.das interações de proteínas naConjunto de dados melhora a compreensão
Índice

Estudar como as Proteínas interagem é importante pra entender as funções biológicas. Essas interações podem ser coletadas de várias fontes, incluindo experimentos e artigos de pesquisa publicados. Cientistas criaram bancos de dados que são atualizados regularmente pra compartilhar essas informações.

Pra melhorar esses bancos de dados, pesquisadores usaram mineração de texto pra encontrar conexões entre proteínas mencionadas em textos científicos. Por exemplo, bancos de dados como STRING e HumanNet usam esse método pra criar redes maiores de interações entre proteínas. Mas só porque duas proteínas são mencionadas juntas em um texto, não significa que elas realmente interagem fisicamente. Pra resolver isso, versões anteriores do STRING usaram regras pra ajudar a extrair interações relevantes.

Nos últimos anos, o campo de processamento de linguagem natural na biomedicina avançou bastante graças a métodos melhores baseados em deep learning. Esses novos sistemas geralmente usam um processo de treinamento em duas etapas. Primeiro, eles aprendem com uma grande quantidade de texto não anotado, e depois refinam suas habilidades usando conjuntos de dados menores e rotulados. Modelos baseados na arquitetura de transformadores, como o BERT, mostraram muito sucesso. Esses modelos usam hardware poderoso pra treinar em grandes conjuntos de dados, alcançando ótimos resultados em várias tarefas.

No entanto, a eficácia do BERT e de modelos similares depende de ter dados rotulados suficientes. Criar esses conjuntos de dados rotulados pode ser caro e requer conhecimento especializado. Muitos conjuntos de dados existentes focam em tarefas específicas, dificultando o seu uso em diferentes projetos. Esse desafio destaca a necessidade de um novo conjunto de dados, criado com cuidado, que atenda aos requisitos do banco de dados STRING.

O objetivo principal deste estudo foi construir um sistema que consiga identificar interações físicas entre proteínas pro banco de dados STRING. Pra isso, criamos o ComplexTome, um novo conjunto de dados que consiste em relacionamentos anotados entre elementos biomédicos. Também montamos um sistema treinado com esse conjunto pra extrair relacionamentos da literatura biomédica disponível e desenvolvemos um método pra encontrar palavras importantes que indicam esses relacionamentos. Os dados coletados, métodos e resultados estão disponíveis pra comunidade científica.

O Conjunto de Dados ComplexTome

Selecionando Documentos pra Anotação

Pra criar o ComplexTome, seguimos um processo em três etapas pra escolher documentos pra anotação.

Primeiro, pesquisamos conjuntos de dados estabelecidos, como os conjuntos de dados de treinamento e desenvolvimento do BioNLP ST 2009. Desse material, encontramos 135 resumos que discutiam eventos de formação de complexos. No entanto, como as definições usadas nesses conjuntos de dados anteriores não se alinhavam com o que precisávamos pro ComplexTome, tivemos que começar a anotação do zero.

Em seguida, queríamos coletar documentos que contivessem relacionamentos positivos. Reunimos 400 resumos de um grande banco de dados que destaca interações físicas ou genéticas e 400 parágrafos de artigos de texto completo de acesso aberto. Nos certificamos de remover qualquer documento que continha mais de 20 interações.

Por fim, buscamos recursos que ilustrassem relacionamentos negativos. Selecionamos 300 resumos de artigos focados em anotações de vias e 50 resumos filtrados de outro banco de dados, garantindo novamente que fossem relevantes.

Durante essas etapas, usamos um método chamado Reconhecimento de Entidades Nomeadas pra identificar entidades de proteínas em nossas coleções de documentos. Pra garantir que tivéssemos uma variedade de proteínas sem repetições, limitamos a representação de proteínas comumente mencionadas.

Anotando Entidades Nomeadas

No ComplexTome, anotamos quatro tipos de entidades. São elas:

  1. Proteína: Refere-se a genes ou produtos gênicos.
  2. Químico: Envolve químicos isolados não ligados a entidades maiores.
  3. Complexo: Representa agrupamentos estáveis de moléculas, incluindo proteínas.
  4. Família de Proteínas: Abrange grupos de proteínas com funções similares.

Pra ajudar no processo de anotação, anotamos nomes alternativos que se referem às mesmas entidades. Essa prática ajuda a tornar as avaliações mais precisas ao reconhecer relacionamentos de diferentes nomes.

Pra melhor categorizar as entidades, atribuímos cinco atributos pra moldar as entidades nomeadas, como “Mutante” ou “Fusão”, que ajudaram durante o processo de anotação.

Anotação de Relacionamentos

Para o ComplexTome, focamos em destacar menções explícitas de interações físicas entre proteínas e marcamos essas como relações binárias não direcionadas conhecidas como Complex_formação. Se um texto implicava na formação de um complexo, nós anotamos, mas não marcamos declarações que negavam tais relacionamentos.

Dois especialistas na área realizaram as anotações pra garantir precisão. Eles anotaram independentemente uma seleção de documentos, permitindo que verificássemos a concordância nas anotações. Monitoramos o processo de perto pra manter a qualidade.

Sistema de Extração de Relações

Desenvolvemos um sistema pra extrair relações de Complex_formação de textos biomédicos. O sistema funciona prevendo se uma relação existe entre duas entidades candidatas com base em suas menções no texto.

A tarefa de extração opera como um problema de classificação binária. O sistema é construído com tecnologia de deep learning, especificamente uma arquitetura de codificador de transformadores, que lida eficientemente com a tarefa de extração de relações.

O sistema permite entrada em dois formatos e pode ser treinado com várias configurações. Quando o modelo é treinado, ele ajusta certos pesos enquanto aprende outros do zero. Após cada rodada de treinamento, avaliamos seu desempenho pra otimizar as configurações antes do uso final.

Pré-processamento e Representação de Entrada

Como textos biomédicos podem ser longos e conter muitas entidades, usamos uma abordagem de pré-processamento.

Usamos métodos de marcação ou máscara pra indicar quais entidades estavam relacionadas no texto. Além disso, tokenizamos o texto e verificamos se os pares de entidades poderiam ser processados dentro das limitações do modelo. Esse método nos permite trabalhar com textos mais longos sem perder informações relevantes.

Ao processar a entrada dessa maneira, conseguimos gerenciar tanto os limites de sentenças quanto textos longos de forma eficaz.

Configuração Experimental

Criamos conjuntos separados de treinamento, desenvolvimento e teste pro ComplexTome, levando a uma análise estruturada da eficácia do nosso sistema. Usamos buscas em grade pra otimizar o desempenho do modelo e minimizar a aleatoriedade dos pesos iniciais. Cada sessão de treinamento foi avaliada e melhorada com base nos resultados do conjunto de desenvolvimento. O conjunto de teste final foi acessado apenas uma vez pra avaliar nosso modelo de melhor desempenho.

Nosso sistema é particularmente focado em extrair relacionamentos entre entidades de Proteína, filtrando elementos não relacionados pra aplicações práticas.

Sistema de Detecção de Gatilhos

Além da extração de relações, também construímos um sistema pra detectar palavras ou frases significativas no texto que sinalizam a presença de um relacionamento. Esses termos-chave, conhecidos como gatilhos, melhoram o processo de extração ao deixar mais claro o que indica um relacionamento.

Tradicionalmente, a detecção de gatilhos se baseou em métodos supervisionados que precisam de dados anotados. No entanto, aplicamos técnicas de explicação de modelo pra identificar gatilhos sem precisar de muitos dados de treinamento.

Hipotetizamos que os tokens com as maiores pontuações em nossos modelos corresponderiam muitas vezes aos gatilhos desejados. Essa abordagem oferece uma nova maneira de reconhecer termos importantes conectados às interações entre proteínas.

Métodos de Detecção de Gatilhos

Testamos duas técnicas comuns, Gradientes Integrados de Camada (LIG) e Explicações Aditivas de Shapley (SHAP), pra avaliar sua capacidade de identificar gatilhos de forma eficaz.

Depois de obter nosso melhor modelo de extração de relações, empregamos esses métodos pra avaliar o desempenho em um conjunto de desenvolvimento de gatilhos dedicado. Notamos que detectar gatilhos quando o modelo cometeu um erro na predição de relações não foi eficaz.

Assim, priorizamos checar o rótulo da relação antes de prosseguir com a detecção de gatilhos. Essa abordagem garante que estamos trabalhando com entradas precisas e melhora a confiabilidade dos nossos resultados.

Comparando Métodos

Nas nossas comparações, descobrimos que métodos básicos simples tiveram desempenho ruim na detecção de gatilhos, enquanto os métodos baseados em SHAP apresentaram resultados muito melhores. Ao introduzir regras de pós-processamento, melhoramos o desempenho de ambos os métodos, aumentando as taxas de precisão e recall.

O modelo que combinou o método LIG com pós-processamento alcançou as melhores pontuações pra detectar gatilhos no contexto de Complex_formação. Esse método se mostrou eficaz em reconhecer termos-chave relevantes associados às interações.

Resultados e Discussão

O ComplexTome mostra forte concordância entre os anotadores, contendo 1.287 documentos e mais de 3.400 relações. O conjunto de dados apresenta uma rica variedade de interações, com a maioria ocorrendo dentro de frases únicas.

Nosso sistema de extração de relações alcançou métricas de desempenho notáveis, destacando um método bem-sucedido pra identificar relações em textos biomédicos. Uma análise manual dos erros revelou categorias, como palavras-chave ambíguas e frases complexas, que contribuíram para os desafios em previsões precisas.

Pra detecção de gatilhos, o sistema demonstrou altas taxas de precisão e recall, indicando seu potencial utilitário em aplicações em larga escala. Tanto os sistemas de extração quanto de detecção se saíram bem quando aplicados a grandes quantidades de literatura biomédica.

Execução em Grande Escala e Integração no STRING v12

Pra implementar nossos sistemas, processamos uma coleção abrangente de resumos do PubMed e artigos de texto completo. Convertimos esses documentos em um formato adequado pro nosso modelo de extração de relações, que previu interações em um enorme conjunto de dados.

Nosso pipeline prevê milhões de pares de relacionamentos, fornecendo um resultado simplificado pro banco de dados STRING. Os usuários podem acessar esses resultados diretamente, permitindo a exploração de interações físicas e sua literatura de apoio.

Com cada atualização, o STRING melhorou sua capacidade de mostrar interações físicas dentro de um contexto funcional mais amplo. Esse trabalho não só expande a cobertura de interações no banco de dados, mas também permite que os usuários investiguem essas conexões em detalhes, enriquecendo sua compreensão de processos biológicos complexos.

Ao apresentar as palavras mais relevantes que sinalizam relacionamentos, nosso sistema melhora a experiência do usuário no STRING. Essa abordagem dupla de extração de relações combinada com detecção de gatilhos é um passo inovador no campo de mineração de texto pra pesquisa biomédica.

Conclusão

Através do desenvolvimento do ComplexTome e nossos sistemas associados, fizemos uma contribuição notável pra compreensão das interações entre proteínas na pesquisa biomédica. A alta precisão dos sistemas de extração de relações e detecção de gatilhos sinaliza seu valor pra comunidade científica.

À medida que as capacidades de mineração de texto continuam a evoluir, nosso trabalho exemplifica como a modelagem de linguagem avançada pode aprimorar a pesquisa biológica em múltiplas frentes. A integração de nossas descobertas no STRING v12 marca um momento vital pra entender redes biológicas complexas, abrindo o caminho pra futuras descobertas no campo.

Fonte original

Título: STRING-ing together protein complexes: corpus and methods for extracting physical protein interactions from the biomedical literature

Resumo: Understanding biological processes relies heavily on curated knowledge of physical interactions between proteins. Yet, a notable gap remains between the information stored in databases of curated knowledge and the plethora of interactions documented in the scientific literature. To bridge this gap, we introduce ComplexTome, a manually annotated corpus designed to facilitate the development of text-mining methods for the extraction of complex formation relationships among biomedical entities. This corpus comprises 1,287 documents with [~]3, 500 relationships. We train a novel relation extraction model on this corpus and find that it can highly reliably identify physical protein interactions (F1-score=82.8%). We additionally enhance the models capabilities through unsupervised trigger word detection and apply it to extract relations and trigger words for these relations from all open publications in the domain literature. This information has been fully integrated into the latest version of the STRING database, and all introduced resources are openly accessible via Zenodo and GitHub.

Autores: Katerina Nastou, F. Mehryary, T. Ohta, L. J. Jensen, S. Pyysalo

Última atualização: 2024-02-28 00:00:00

Idioma: English

Fonte URL: https://www.biorxiv.org/content/10.1101/2023.12.10.570999

Fonte PDF: https://www.biorxiv.org/content/10.1101/2023.12.10.570999.full.pdf

Licença: https://creativecommons.org/licenses/by/4.0/

Alterações: Este resumo foi elaborado com a assistência da AI e pode conter imprecisões. Para obter informações exactas, consulte os documentos originais ligados aqui.

Obrigado ao biorxiv pela utilização da sua interoperabilidade de acesso aberto.

Mais de autores

Artigos semelhantes