Avanços no Reconhecimento de Entidades Nomeadas para Aplicações Biomédicas
Novos métodos melhoram a identificação de termos biomédicos chave na pesquisa.
― 5 min ler
Índice
O Reconhecimento de Entidades Nomeadas (NER) é um processo usado em processamento de linguagem natural pra encontrar e classificar informações chave em textos, como nomes de pessoas, organizações e locais. Na área biomédica, o NER ajuda a identificar termos específicos relacionados a doenças, genes e outras entidades médicas em artigos de pesquisa e dados clínicos.
Diferentes Abordagens para NER
Tem vários métodos para fazer NER, mas três se destacam:
SEQ: Esse método analisa cada palavra de uma frase individualmente e dá uma etiqueta que indica se marca o começo, meio ou fim de uma entidade.
SeqCRF: Esse método é parecido com o SEQ, mas adiciona uma camada que considera as relações entre palavras vizinhas. Assim, as etiquetas atribuídas a uma palavra levam em conta as etiquetas das palavras ao redor.
SpanPred: Essa abordagem foca em segmentos de texto (spans) em vez de palavras isoladas. Ela identifica o começo e o fim de uma entidade olhando pra um par de palavras que cercam a entidade.
Esses três métodos foram avaliados em quatro tarefas de NER biomédico. As tarefas incluem conjuntos de dados de diferentes idiomas e contextos, especificamente:
- GENIA: Lida com frases em inglês
- NCBI-Disease: Foca em termos relacionados a doenças em inglês
- LivingNER: Captura entidades nomeadas em espanhol
- SocialDisNER: Também trabalha com tweets em espanhol.
Análise de Performance
Entre os métodos testados, o SpanPred mostrou os melhores resultados ao identificar entidades nas tarefas LivingNER e SocialDisNER. Ele melhorou a pontuação de performance, conhecida como F1, com margens bem visíveis nesses conjuntos de dados. O método SeqCRF também se saiu muito bem, principalmente nas mesmas tarefas relacionadas ao espanhol. O método SEQ também se manteve, mas foi só um pouquinho menos eficaz.
A habilidade de combinar previsões de diferentes modelos também foi investigada. As descobertas revelaram que um método simples de votação, chamado votação majoritária ou MajVote, resultou consistentemente em alta precisão em todos os quatro conjuntos de dados. Esse método permitiu que as previsões de diferentes modelos trabalhassem juntas, produzindo melhores resultados.
Combinando Abordagens
Duas métodos principais foram usados pra combinar as previsões dos modelos:
Método de União: Aqui, todas as previsões feitas pelos modelos foram reunidas. Esse método garantiu que nenhuma previsão correta fosse perdida, mas poderia baixar a precisão geral, já que incluiu todas as previsões, corretas ou não.
Método MajVote: Essa abordagem clássica pegou as previsões que receberam mais votos dos modelos. Como resultado, tendia a retornar previsões que eram mais prováveis de serem precisas, levando a uma maior precisão.
Um novo sistema combinado, chamado Meta, também foi criado pra melhorar as fraquezas encontradas no método de União. O Meta funcionou aprendendo com as previsões dos modelos SEQ e SpanPred, determinando se cada previsão estava certa ou errada. Com isso, o objetivo era manter as previsões corretas enquanto filtrava as incorretas.
Como os Modelos Funcionam
Cada método começa com um passo que transforma frases em um formato que o modelo pode entender. Essa transformação cria uma representação pra cada palavra na frase com base no seu contexto. Marcadores especiais no texto são usados pra ajudar os modelos a se concentrarem nas partes da frase que contêm informações relevantes.
Para os métodos SEQ e SeqCRF, cada palavra é examinada individualmente, enquanto o SpanPred checa diferentes spans de palavras. Para cada modelo, depois de identificar as entidades, um passo final classifica elas em categorias específicas, como doença ou nome de pessoa.
Durante a avaliação, todas as previsões foram conferidas com as respostas corretas pra determinar a eficácia de cada método. Os critérios usados pra medir isso eram rigorosos, significando que apenas acertos exatos contariam.
Descobertas e Resultados
Durante os testes, o SpanPred geralmente teve um desempenho melhor do que os outros dois modelos. Principalmente em casos onde as entidades se sobrepunham, como nos conjuntos de dados LivingNER e GENIA, ele se mostrou o mais eficaz. No entanto, em tarefas mais claras sem entidades sobrepostas, como nas tarefas SocialDisNER e NCBI-Disease, os resultados foram mais equilibrados entre os três métodos.
As melhorias trazidas pela combinação de modelos foram claras. Sistemas desenvolvidos pelo método de União tiveram um recall melhor, significando que capturaram mais previsões corretas, mas tendiam a cair na precisão, levando a mais previsões erradas. Por outro lado, o método MajVote conseguiu manter um bom equilíbrio entre alta precisão e recall, se mostrando mais confiável no geral.
A abordagem Meta, criada pra aumentar o método de União, mostrou grande potencial. Ela aumentou efetivamente a precisão sem comprometer o recall, que é o resultado ideal pra qualquer tarefa de reconhecimento de entidade.
Conclusão
As descobertas mostram que, embora modelos individuais tenham suas forças e fraquezas, combinar diferentes abordagens pode levar a resultados melhores em tarefas de reconhecimento de entidades nomeadas biomédicas. O uso de votação majoritária e o novo modelo Meta contribuem significativamente pra refinar as previsões feitas por métodos tradicionais.
A capacidade de identificar e classificar corretamente termos médicos é crucial na pesquisa biomédica e aplicações, ajudando profissionais a acessar e utilizar informações de forma mais eficaz. Avanços contínuos nas metodologias de NER provavelmente beneficiarão vários campos, fornecendo ferramentas mais precisas pra processar grandes quantidades de informações textuais.
Título: Comparing and combining some popular NER approaches on Biomedical tasks
Resumo: We compare three simple and popular approaches for NER: 1) SEQ (sequence-labeling with a linear token classifier) 2) SeqCRF (sequence-labeling with Conditional Random Fields), and 3) SpanPred (span-prediction with boundary token embeddings). We compare the approaches on 4 biomedical NER tasks: GENIA, NCBI-Disease, LivingNER (Spanish), and SocialDisNER (Spanish). The SpanPred model demonstrates state-of-the-art performance on LivingNER and SocialDisNER, improving F1 by 1.3 and 0.6 F1 respectively. The SeqCRF model also demonstrates state-of-the-art performance on LivingNER and SocialDisNER, improving F1 by 0.2 F1 and 0.7 respectively. The SEQ model is competitive with the state-of-the-art on the LivingNER dataset. We explore some simple ways of combining the three approaches. We find that majority voting consistently gives high precision and high F1 across all 4 datasets. Lastly, we implement a system that learns to combine the predictions of SEQ and SpanPred, generating systems that consistently give high recall and high F1 across all 4 datasets. On the GENIA dataset, we find that our learned combiner system significantly boosts F1(+1.2) and recall(+2.1) over the systems being combined. We release all the well-documented code necessary to reproduce all systems at https://github.com/flyingmothman/bionlp.
Autores: Harsh Verma, Sabine Bergler, Narjesossadat Tahaei
Última atualização: 2023-05-30 00:00:00
Idioma: English
Fonte URL: https://arxiv.org/abs/2305.19120
Fonte PDF: https://arxiv.org/pdf/2305.19120
Licença: https://creativecommons.org/licenses/by/4.0/
Alterações: Este resumo foi elaborado com a assistência da AI e pode conter imprecisões. Para obter informações exactas, consulte os documentos originais ligados aqui.
Obrigado ao arxiv pela utilização da sua interoperabilidade de acesso aberto.
Ligações de referência
- https://www.latex-project.org/help/documentation/encguide.pdf
- https://github.com/flyingmothman/bionlp
- https://github.com/flyingmothman/bionlp/blob/d61b02593711b43b5d0f00f0c6ed62fb7685adf3/utils/training.py#L13-L20
- https://huggingface.co/docs/transformers/main_classes/optimizer_schedules#transformers.Adafactor
- https://temu.bsc.es/livingner/2022/01/28/evaluation/