Melhorando o Reconhecimento de Entidades Nomeadas em Pesquisas Biomédicas
Um novo método melhora o NER baseado em dicionário para textos biomédicos.
― 8 min ler
Índice
- Métodos de Reconhecimento de Entidades Nomeadas
- Desafios no Reconhecimento de Entidades Nomeadas
- Melhorando o NER Baseado em Dicionário
- O Papel dos Dicionários no NER
- Níveis Global e Local de Bloqueio
- O Conjunto de Dados de Consenso
- Treinando o Modelo
- Gerando Listas de Bloqueio
- Avaliando o Impacto das Listas de Bloqueio
- Conclusão
- Fonte original
O Reconhecimento de Entidades Nomeadas (NER) é um método usado na mineração de texto para encontrar e classificar termos ou frases importantes no texto, especialmente em áreas específicas como pesquisa biomédica. Nessa área, entidades nomeadas podem incluir genes, químicos e doenças. O NER é essencial porque melhora o desempenho de outras tarefas de mineração de texto que coletam informações valiosas do texto, como identificar relações entre entidades.
Métodos de Reconhecimento de Entidades Nomeadas
Um método famoso para NER é o uso de abordagens baseadas em dicionários. Esses métodos dependem de dicionários que contêm listas de termos compiladas a partir de várias fontes específicas de cada tipo de entidade. Esses dicionários permitem tanto o reconhecimento quanto a normalização de nomes no texto. Porém, criar esses dicionários especificamente para texto Biomédico pode levar muito tempo e requer conhecimento especializado, o que pode dificultar a obtenção dos melhores resultados.
Um exemplo notável de um motor de etiquetagem Baseado em dicionário é o tagger JensenLab. Esse software consegue processar rapidamente milhares de resumos do PubMed a cada segundo, tornando-o ideal tanto para mineração de texto em tempo real quanto para analisar grandes conjuntos de dados textuais. Ao combinar esse tagger com vários dicionários, os pesquisadores podem extrair associações entre genes, químicos, componentes celulares, tecidos e doenças. As informações coletadas por esses processos são normalizadas para corresponder a identificadores de bancos de dados e ontologias estabelecidos, facilitando a pesquisa biológica posterior.
Desafios no Reconhecimento de Entidades Nomeadas
Embora o NER baseado em dicionário seja eficaz, ele traz seus próprios desafios. A parte mais crucial de um sistema assim é a integridade e a qualidade do dicionário. Ao mudar os esforços de NER para um domínio diferente, é necessário criar um novo dicionário de alta qualidade junto com uma lista de nomes para evitar falsos positivos. Esse processo manual é demorado e muitas vezes tedioso, o que pode dificultar o progresso.
Recentemente, o campo começou a adotar métodos de deep learning, especialmente aqueles baseados em arquiteturas de Transformer, para realizar várias tarefas, incluindo NER. Modelos de linguagem grandes também surgiram como alternativas para tarefas além de apenas responder perguntas. No entanto, usar abordagens de deep learning para NER pode ser caro e requer um conjunto de dados de treinamento adequado específico para reconhecimento e normalização de entidades nomeadas em diferentes tipos de entidades.
Melhorando o NER Baseado em Dicionário
Para melhorar os sistemas tradicionais de NER baseados em dicionário com técnicas modernas, os pesquisadores tentaram automatizar o processo de geração de listas de bloqueio que filtram nomes problemáticos. Esse novo método envolve unificar e comparar resultados de três métodos existentes de NER biomédico, criando um conjunto de dados abrangente de trechos de texto onde foram encontradas concordâncias sobre limites e tipos de entidades. Esse conjunto de dados foi usado para gerar exemplos positivos (entidades corretamente identificadas) e negativos (entidades incorretamente identificadas) para vários tipos de entidades.
Um modelo baseado em Transformer, especificamente projetado para o domínio biomédico, foi treinado para classificar esses tipos de entidades usando o novo conjunto de dados. O modelo identificou com precisão os nomes que precisavam ser bloqueados, expandindo significativamente a lista de bloqueio existente enquanto melhorava a precisão sem perder o recall. Além disso, listas específicas para documentos foram criadas para lidar com ocorrências de nomes ambíguos em documentos específicos, garantindo que a qualidade do processo de etiquetagem fosse mantida.
O Papel dos Dicionários no NER
O tagger baseado em dicionário é vital para o funcionamento dos sistemas de mineração de texto que rastreiam entidades biomédicas. O primeiro passo nessa operação envolve reconhecer essas entidades por meio do tagger, que influencia diretamente a qualidade das relações que são posteriormente extraídas.
Na gestão de nomes para o tagger, são utilizados dois níveis de bloqueio e liberação de nomes: um escopo global, que se aplica a todo o corpus, e um escopo local, que é específico para documentos individuais. A criação de listas manuais requer uma análise cuidadosa dos nomes frequentes na literatura, enquanto listas automáticas podem ser geradas sem intervenção humana. A lista final combina entradas manuais e automáticas, priorizando nomes curados manualmente em caso de conflitos.
Níveis Global e Local de Bloqueio
Em um nível global, o bloqueio é feito para identificar nomes que não são adequados para mineração de texto, enquanto liberar nomes garante que entidades biomédicas verificadas sejam mantidas. Contextos locais também exigem decisões específicas de bloqueio ou liberação. Por exemplo, um nome que geralmente se refere a uma proteína pode significar algo diferente em documentos específicos. Aqui, ajustes locais impedem a etiquetagem incorreta.
O tagger funciona de maneira insensível a maiúsculas, permitindo várias grafias e variações de pontuação, enquanto mantém uma abordagem sensível a maiúsculas para as listas em si. Essa complexidade é crítica para gerenciar instâncias em que o mesmo nome pode se referir a diferentes tipos de entidades, o que pode ocorrer frequentemente na literatura biomédica.
O Conjunto de Dados de Consenso
Criar um novo método para identificar nomes problemáticos começa com a geração de exemplos de alta qualidade para fins de treinamento. Um conjunto de dados rotulado é crucial, e a demanda por exemplos positivos e negativos requer um grande volume de dados. Dado que a anotação manual consome muitos recursos, uma abordagem automática fornece uma solução aproveitando métodos de NER existentes para estabelecer consenso sobre limites e tipos.
Os trechos de texto coletados criam um conjunto de dados que reflete a identificação correta de quatro tipos de entidades específicas: genes, doenças, espécies e químicos. Esse conjunto de dados substancial permite o treinamento eficaz de um modelo que pode classificar essas entidades com precisão.
Treinando o Modelo
Para classificação de entidades, os métodos mais usados atualmente empregam modelos baseados em Transformer. Um modelo pré-treinado especificamente projetado para a área biomédica foi selecionado para treinamento com o conjunto de dados gerado. O modelo, construído com uma técnica de modelagem de linguagem mascarada, foi ajustado para classificar entidades com base no contexto circundante em vez das entidades em si.
Dois conjuntos de dados distintos foram criados para esse processo de treinamento, fornecendo uma variedade robusta de exemplos. O modelo com melhor desempenho foi identificado e usado para classificar novos exemplos a partir das saídas do tagger.
Gerando Listas de Bloqueio
A criação de listas de bloqueio automatizadas começou com a execução do tagger em um vasto corpus da literatura biomédica. Nomes identificados pelo tagger foram classificados usando o modelo treinado, produzindo pontuações probabilísticas para cada correspondência. Essas pontuações indicavam a probabilidade de um nome pertencer à classe designada.
Para formular uma lista de bloqueio abrangente aplicável a todo o corpus, essas pontuações individuais foram médias. Condições especiais foram estabelecidas, garantindo que apenas nomes aparecendo em múltiplos documentos fossem incluídos na lista de bloqueio global. O processo visava filtrar nomes ineficazes enquanto ainda permitia que o tagger operasse de forma eficiente.
Avaliando o Impacto das Listas de Bloqueio
Avaliações foram realizadas para verificar como as diferentes configurações das listas de bloqueio impactaram o desempenho do tagger. Analisando conjuntos de dados específicos, a avaliação se concentrou nas coocorrências de proteínas e doenças extraídas da literatura.
Os resultados mostraram melhorias significativas ao usar listas de bloqueio, indicando que a inclusão de tais listas aumentava a precisão do tagger. Os resultados mais notáveis vieram da combinação de listas de bloqueio tanto curadas manualmente quanto geradas automaticamente, sugerindo que essa abordagem combinada trouxe os melhores resultados.
Conclusão
Essa abordagem mostra que automatizar o processo de geração de listas de bloqueio para NER baseado em dicionário pode melhorar efetivamente os sistemas de etiquetagem. O grande conjunto de dados criado a partir dos resultados de consenso permite o refinamento da classificação de entidades, levando a melhor precisão e recall na identificação de entidades biomédicas.
No geral, as estratégias implementadas aqui aprimoram os métodos tradicionais baseados em dicionário, preservando suas forças. Essa integração de novas técnicas garante que os recursos de mineração de texto no domínio biomédico permaneçam precisos e acessíveis, beneficiando assim os esforços de pesquisa contínuos na área.
Título: Improving dictionary-based named entity recognition with deep learning
Resumo: MotivationDictionary-based named entity recognition (NER) allows terms to be detected in a corpus and normalized to biomedical databases and ontologies. However, adaptation to different entity types requires new high-quality dictionaries and associated lists of blocked names for each type. The latter are so far created by identifying cases that cause many false positives through manual inspection of individual names, a process that scales poorly. ResultsIn this work we aim to improve block lists by automatically identifying names to block, based on the context in which they appear. By comparing results of three well-established biomedical NER methods, we generated a dataset of over 12.5 million text spans where the methods agree on the boundaries and type of entity tagged. These were used to generate positive and negative examples of contexts for four entity types (genes, diseases, species, chemicals), which were used to train a Transformer-based model (BioBERT) to perform entity type classification. Application of the best model (F1-score=96.7%) allowed us to generate a list of problematic names that should be blocked. Introducing this into our system doubled the size of the previous list of corpus-wide blocked names. Additionally, we generated a document-specific list that allows ambiguous names to be blocked in specific documents. These changes boosted text mining precision by[~] 5.5% on average, and over 8.5% for chemical and 7.5% for gene names, positively affecting several biological databases utilizing this NER system, like the STRING database, with only a minor drop in recall (0.6%). AvailabilityAll resources are available through Zenodo https://doi.org/10.5281/zenodo.10800530 and GitHub https://doi.org/10.5281/zenodo.10289360.
Autores: Katerina Nastou, M. Koutrouli, S. Pyysalo, L. J. Jensen
Última atualização: 2024-03-13 00:00:00
Idioma: English
Fonte URL: https://www.biorxiv.org/content/10.1101/2023.12.10.570777
Fonte PDF: https://www.biorxiv.org/content/10.1101/2023.12.10.570777.full.pdf
Licença: https://creativecommons.org/licenses/by/4.0/
Alterações: Este resumo foi elaborado com a assistência da AI e pode conter imprecisões. Para obter informações exactas, consulte os documentos originais ligados aqui.
Obrigado ao biorxiv pela utilização da sua interoperabilidade de acesso aberto.