Simple Science

Ciência de ponta explicada de forma simples

# Ciências da saúde# Informatica sanitaria

Avaliação da Geração de Linguagem Natural na Medicina

Um estudo sobre como avaliar sistemas de NLG para diagnósticos médicos precisos.

― 7 min ler


NLG em DiagnósticosNLG em DiagnósticosMédicosquanto à precisão.Avaliando texto médico gerado por IA
Índice

A Geração de Linguagem Natural (NLG) é uma área que se concentra em como os computadores podem criar textos que parecem ter sido escritos por humanos. Recentemente, os Modelos de Linguagem Grande (LLMs) mudaram a maneira como avaliamos a qualidade desses textos gerados. Os LLMs podem fazer checagens mais detalhadas no texto, mas ainda muitas vezes dependemos de formas mais antigas de medir a qualidade, como a pontuação ROUGE. A pontuação ROUGE é uma ferramenta comum para checar resumos, mas tem algumas falhas. Ela olha principalmente para quão próximo o texto gerado está do texto existente, o que nem sempre captura o verdadeiro significado, especialmente em áreas complexas como os diagnósticos médicos.

Na medicina, acertar a avaliação da NLG é muito importante. Precisamos evitar preconceitos e garantir que os diagnósticos sejam precisos para prevenir qualquer dano. Portanto, precisamos de métodos de avaliação melhores que se encaixem nos desafios únicos do suporte à decisão clínica. O objetivo deste trabalho foi olhar para ferramentas de avaliação automatizadas para ver quão bem elas se comparam às avaliações humanas em tarefas médicas.

Avaliando NLG na Medicina

No campo médico, avaliar como os sistemas de NLG se saem é crucial. Isso porque a geração de texto incorreto ou tendencioso pode ter consequências sérias. Precisávamos criar uma estrutura de avaliação forte para garantir que avaliássemos com precisão a qualidade do texto gerado, focando na geração de diagnósticos.

Para começar esse processo, revisamos o estado atual das avaliações de NLG na medicina. Descobrimos que os métodos de avaliação existentes muitas vezes não abordam totalmente as complexidades das tarefas clínicas. Depois disso, examinamos métricas chave usadas nas avaliações, entendendo seus pontos fortes e fracos no contexto da geração de diagnósticos médicos. Também propusemos uma nova estrutura de avaliação humana que inclui um método confiável para avaliar quão bem cada métrica de avaliação automatizada funciona.

Contexto e Trabalhos Relacionados

Investigamos as várias métricas automatizadas que estão disponíveis para tarefas como resumo e perguntas e respostas, já que essas são as mais semelhantes à geração de diagnósticos médicos. Entre abril e agosto de 2023, fizemos uma busca extensa na literatura em grandes bancos de dados para encontrar artigos que usaram métricas de avaliação humanas ou automatizadas.

Focamos em artigos que atendiam a certos critérios, como serem relacionados à geração de texto e resumo no campo médico. No total, encontramos 82 artigos que se encaixavam nesses critérios e revisamos 105 métricas diferentes.

Seleção de Métricas

Depois de examinar a literatura, selecionamos um conjunto de métricas de avaliação automatizadas que são comumente usadas em tarefas relacionadas e mostraram bons resultados em correlacionar com avaliações humanas na saúde. Escolhemos dez métricas específicas, categorizando-as com base em suas características:

  1. Métricas de Sobreposição de N-gramas: Essas métricas comparam o texto gerado ao texto de referência, olhando para palavras ou frases correspondentes. A métrica ROUGE-L se encaixa nessa categoria e é amplamente utilizada.

  2. Métricas Baseadas em UMLS: Essas métricas usam o Sistema Unificado de Linguagem Médica (UMLS) para medir a qualidade. Elas avaliam as relações entre conceitos médicos no texto.

  3. Métricas Baseadas em Embeddings Não-UMLS: Essas métricas utilizam modelos avançados de aprendizado de máquina que foram treinados em textos médicos para avaliar o conteúdo gerado.

  4. Métricas de Regressão Aprendida: Essas métricas aplicam modelos de rede neural para avaliar o texto gerado com base em padrões aprendidos.

O Papel dos Modelos de Linguagem Grande

Para esta pesquisa, escolhemos o ChatGPT-3.5-turbo como nosso modelo de linguagem principal. Este modelo é conhecido por gerar textos de alta qualidade e está prontamente disponível para uso.

Na nossa abordagem, projetamos prompts que direcionariam o modelo a criar diagnósticos diferenciais a partir de anotações médicas. Fornecemos seções específicas de anotações de pacientes para ajudar o modelo a gerar respostas precisas e relevantes.

Estrutura de Avaliação Humana

Estabelecemos um sistema de avaliação em duas partes para avaliar o texto gerado. A primeira parte focou na checagem da precisão diagnóstica, enquanto a segunda parte avaliou o raciocínio por trás dos diagnósticos.

Para a precisão diagnóstica, usamos uma ferramenta padrão para medir quão bem os diagnósticos gerados coincidiam com definições aceitas de condições médicas. Pontuamos vários aspectos como precisão geral, plausibilidade, especificidade e quaisquer omissões.

A segunda parte da avaliação olhou para como bem o raciocínio por trás dos diagnósticos foi explicado. Avaliamos isso com base em compreensão, raciocínio, lembrança de conhecimento e a presença de omissões no texto de raciocínio.

Avaliando Diagnósticos e Raciocínio

Uma vez que avaliamos os diagnósticos gerados pelo ChatGPT, encontramos que muitos cumpriram os critérios do que constitui um diagnóstico médico válido. Uma porcentagem significativa dos diagnósticos foi considerada plausível, embora menos fossem altamente específicos.

Em termos de raciocínio, a maioria das frases geradas demonstrou uma boa compreensão do texto médico, com apenas um pequeno número sem explicações claras para os diagnósticos fornecidos.

Métricas de Avaliação Automatizadas

Em seguida, investigamos quão bem as métricas automatizadas selecionadas se saíram em correlação com as avaliações humanas. Os resultados mostraram que as métricas, particularmente a Pontuação SapBERT, tiveram a maior correlação com as avaliações humanas. No entanto, no geral, nenhuma das métricas automatizadas se saiu significativamente melhor do que a métrica ROUGE-L mais tradicional.

Examinamos componentes específicos da avaliação diagnóstica, como especificidade e plausibilidade, e notamos que a Pontuação SapBERT consistentemente mostrou a melhor correlação.

Principais Conclusões

Nosso estudo encontrou uma diferença notável entre como os humanos avaliam o texto gerado e como as métricas automatizadas o avaliam. Embora existam várias métricas, a maioria não consegue refletir com precisão a qualidade dos diagnósticos médicos. As métricas automatizadas atuais tendem a focar demais na correspondência da estrutura do texto em vez de abordar os significados mais profundos e implicações do conteúdo.

Essas descobertas apontam para uma necessidade crítica de melhores métodos de avaliação automatizada que possam avaliar efetivamente a relevância e a precisão do texto médico gerado.

Conclusão

Resumindo, desenvolvemos uma estrutura de avaliação humana minuciosa voltada especificamente para avaliar a geração de diagnósticos. Nossas descobertas indicam que, embora as métricas automatizadas sejam úteis, muitas vezes ficam aquém quando comparadas ao julgamento humano. Apesar das limitações, as métricas baseadas em UMLS, particularmente a Pontuação SapBERT, mostraram melhor alinhamento com as avaliações humanas.

Daqui para frente, melhorar as métricas de avaliação para a geração de texto médico é essencial para garantir a segurança dos pacientes e aumentar a confiabilidade da IA em ambientes clínicos. Ao aproveitar o rico conhecimento médico e aprimorar como avaliamos o conteúdo gerado, podemos trabalhar em direção a avaliações automatizadas mais confiáveis e precisas na área médica.

Fonte original

Título: Development of a Human Evaluation Framework and Correlation with Automated Metrics for Natural Language Generation of Medical Diagnoses

Resumo: In the evolving landscape of clinical Natural Language Generation (NLG), assessing abstractive text quality remains challenging, as existing methods often overlook generative task complexities. This work aimed to examine the current state of automated evaluation metrics in NLG in healthcare. To have a robust and well-validated baseline with which to examine the alignment of these metrics, we created a comprehensive human evaluation framework. Employing ChatGPT-3.5-turbo generative output, we correlated human judgments with each metric. None of the metrics demonstrated high alignment; however, the SapBERT score--a Unified Medical Language System (UMLS)-showed the best results. This underscores the importance of incorporating domain-specific knowledge into evaluation efforts. Our work reveals the deficiency in quality evaluations for generated text and introduces our comprehensive human evaluation framework as a baseline. Future efforts should prioritize integrating medical knowledge databases to enhance the alignment of automated metrics, particularly focusing on refining the SapBERT score for improved assessments.

Autores: Emma Leigh Croxford, Y. Gao, B. W. Patterson, D. C.-H. To, S. Tesch, D. Dligach, A. Mayampurath, M. M. Churpek, M. Afshar

Última atualização: 2024-04-09 00:00:00

Idioma: English

Fonte URL: https://www.medrxiv.org/content/10.1101/2024.03.20.24304620

Fonte PDF: https://www.medrxiv.org/content/10.1101/2024.03.20.24304620.full.pdf

Licença: https://creativecommons.org/licenses/by/4.0/

Alterações: Este resumo foi elaborado com a assistência da AI e pode conter imprecisões. Para obter informações exactas, consulte os documentos originais ligados aqui.

Obrigado ao medrxiv pela utilização da sua interoperabilidade de acesso aberto.

Mais de autores

Artigos semelhantes