Avançando Sistemas de Perguntas e Respostas Médicas
Melhorando a precisão em questões de múltipla escolha na medicina com novos métodos de treinamento.
― 7 min ler
Índice
- A Tarefa MCQA Explicada
- Importância do Conhecimento no MCQA
- O Papel da Mascaramento de Pistas
- Coletando Dados de Pré-treinamento
- Criando Conjuntos de Dados de MCQA Médico
- Avaliando o Mascaramento de Pistas
- Usando Diagnósticos Diferenciais como Distratores
- Resultados Gerais e Contribuições
- Conclusão
- Fonte original
- Ligações de referência
Responder questões de múltipla escolha na área médica (MCQA) é uma tarefa desafiadora. Envolve responder perguntas sobre os sintomas dos pacientes e encontrar o diagnóstico correto. Isso requer Conhecimento Médico específico e a habilidade de raciocinar através de informações complexas. Modelos de linguagem tradicionais, que usam padrões em textos para fazer previsões, muitas vezes têm dificuldades com as sutilezas das perguntas médicas. Por isso, precisamos de métodos melhores para melhorar a precisão.
Estudos recentes mostram que focar em prever nomes de doenças usando Modelagem de Linguagem Mascarada pode aumentar bastante a precisão do MCQA. Isso significa usar textos médicos, como parágrafos enciclopédicos, para treinar os modelos de maneira mais eficaz. Nesse trabalho, identificamos duas descobertas importantes: primeiro, ajustar modelos em conjuntos de dados de MCQA criados especialmente leva a resultados melhores do que apenas usar modelagem de linguagem mascarada; segundo, esconder corretamente pistas que levam às respostas é essencial para a performance.
Coletamos novos conjuntos de dados para pré-treinamento e conseguimos resultados excepcionais em vários conjuntos de dados de MCQA, com uma melhora notável no conjunto MedQA-USMLE.
A Tarefa MCQA Explicada
No MCQA médico, cada tarefa apresenta uma pergunta e um conjunto de possíveis respostas. O objetivo é escolher a resposta correta entre as opções dadas. Essa tarefa é crucial para ajudar tanto pacientes quanto profissionais de saúde, mas sua eficácia é limitada pela precisão dos sistemas atuais.
O conhecimento médico é vital nessa tarefa, já que as perguntas podem estar relacionadas ao diagnóstico de pacientes ou à determinação de tratamentos adequados. Gráficos de conhecimento médico, como UMLS e SnomedCT, catalogam termos médicos, mas muitas vezes faltam conhecimento prático que geralmente está em fontes textuais como enciclopédias. Para preencher essa lacuna, podemos usar diversos métodos de treinamento que ajudam os modelos a aprender a partir de informações textuais.
Importância do Conhecimento no MCQA
Modelos tradicionais aprendem alguns fatos médicos através de técnicas como a modelagem de linguagem mascarada (MLM), que ajuda a melhorar a precisão em tarefas relacionadas. No entanto, focar apenas nos nomes das doenças durante o treinamento em MLM mostrou aumentar significativamente o desempenho ao responder perguntas médicas.
Estamos comparando diferentes abordagens de treinamento, como MLM direcionada e pré-treinamento auxiliar usando um conjunto de dados que criamos para MCQA. Nesse conjunto, conceitos médicos são usados como respostas, com texto acompanhante servindo como perguntas. Também geramos opções distratoras que são plausíveis, mas incorretas.
Diagnósticos Diferenciais, que são condições que precisam ser distinguidas umas das outras, podem servir como distratores eficazes. Por exemplo, bronquite pode ser um diagnóstico diferencial para um resfriado comum. Ao criar um conjunto de dados desses diagnósticos diferenciais, descobrimos que eles se tornam distrações úteis em tarefas de MCQA. Também podemos usar modelos treinados em conjuntos de dados existentes de MCQA para ajudar a recuperar opções incorretas com base na resposta correta.
O Papel da Mascaramento de Pistas
Ao preparar perguntas e respostas, é importante esconder certas pistas que poderiam levar à resposta correta. Uma pista se refere a peças específicas de informação que podem ajudar a deduzir a resposta. No nosso treinamento, mascaramos os tokens que representam os nomes das doenças para incentivar o modelo a se concentrar nos sintomas.
No entanto, descobrimos que simplesmente mascarar tokens pode, às vezes, levar a resultados subótimos. Por exemplo, se um token específico é sempre mascarado, isso pode, inadvertidamente, dar dicas sobre a resposta. Para resolver isso, desenvolvemos uma nova estratégia de mascaramento chamada mascaramento de pistas por correspondência de probabilidade. Essa abordagem visa evitar que qualquer parte da pergunta revele a resposta.
Coletando Dados de Pré-treinamento
Para melhorar nossos modelos, coletamos novos dados de pré-treinamento de três fontes de código aberto:
Portal de Medicina da Wikipedia: Coletamos páginas relacionadas a tópicos médicos, removendo aquelas que focavam em indivíduos ou organizações. Isso nos deu um grande número de parágrafos informativos.
Wikidoc: Coletamos páginas de visão geral dessa enciclopédia médica especializada, acrescentando mais parágrafos ao nosso conjunto de dados.
WikEM: Obtivemos conteúdo especificamente relacionado à medicina de emergência, contribuindo com parágrafos adicionais para o treinamento.
Criando Conjuntos de Dados de MCQA Médico
Usando os parágrafos coletados, geramos exemplos para MCQA. Criamos perguntas usando o conteúdo e selecionamos respostas corretas a partir dos títulos. Para gerar opções envolventes, procuramos por respostas relacionadas, mas incorretas, enquanto disfarçávamos pistas diretas para as opções corretas.
Também identificamos páginas da Wikipedia que mencionavam diagnósticos diferenciais e as usamos como exemplos negativos. Quando diagnósticos diferenciais não estavam disponíveis, usamos um modelo de recuperação para extrair outros exemplos relevantes, garantindo a variedade e qualidade do conjunto de dados.
Avaliando o Mascaramento de Pistas
A abordagem inicial para mascaramento envolvia esconder tokens na resposta. No entanto, isso às vezes falhava em ocultar informações sobre a doença de forma eficaz. Encontramos um problema chamado mascaramento desnecessário, onde alguns tokens mascarados davam dicas sobre a resposta.
Para melhorar isso, experimentamos o mascaramento em nível de palavra, que minimizou o mascaramento desnecessário e melhorou a infusão de conhecimento. Nosso novo método de mascaramento por correspondência de probabilidade melhorou ainda mais o desempenho, garantindo que nem a presença nem a ausência de certos tokens sugerissem a resposta.
Usando Diagnósticos Diferenciais como Distratores
Descobrimos que diagnósticos diferenciais poderiam ser distrações úteis em tarefas de MCQA. Nossos experimentos mostraram que ter essas opções melhorou a capacidade do modelo de distinguir a resposta correta. Ao utilizar métodos de recuperação para selecionar esses distratores, evitamos criar opções muito semelhantes às respostas corretas.
Resultados Gerais e Contribuições
Testamos nossos modelos em quatro conjuntos de dados de MCQA médico e comparamos seu desempenho com os modelos de ponta existentes. Nossa abordagem mostrou melhorias significativas de precisão em todas as tarefas, independentemente de mais conhecimento ter sido incluído. Isso confirmou que nossos métodos de treinamento levaram a melhores representações gerais de texto para responder perguntas médicas.
Propomos um novo conjunto de dados para MCQA em inglês, focando na recuperação eficaz de distrações e no aprimoramento do mascaramento de pistas. Ao destacar o problema do mascaramento desnecessário e sugerir novas técnicas, demonstramos as vantagens dos nossos métodos. Nosso trabalho mostra que o ajuste fino no novo conjunto de dados WikiMedQA pode levar a melhores resultados e pode potencialmente ser adaptado para uso em outros idiomas.
Conclusão
A tarefa de responder perguntas de múltipla escolha na medicina é complexa, exigindo tanto conhecimento médico quanto habilidades de raciocínio. Ao utilizar técnicas inovadoras como treinamento direcionado e melhor mascaramento de pistas, podemos melhorar o desempenho dos modelos neste campo. A integração de dados enciclopédicos médicos e o uso estratégico de diagnósticos diferenciais como distrações representam passos significativos para aumentar a confiabilidade e precisão dos sistemas de MCQA médicos. Através desses avanços, esperamos criar uma ferramenta mais eficaz para ajudar pacientes e prestadores de cuidados de saúde também.
Título: Generating multiple-choice questions for medical question answering with distractors and cue-masking
Resumo: Medical multiple-choice question answering (MCQA) is particularly difficult. Questions may describe patient symptoms and ask for the correct diagnosis, which requires domain knowledge and complex reasoning. Standard language modeling pretraining alone is not sufficient to achieve the best results. \citet{jin2020disease} showed that focusing masked language modeling on disease name prediction when using medical encyclopedic paragraphs as input leads to considerable MCQA accuracy improvement. In this work, we show that (1) fine-tuning on generated MCQA dataset outperforms the masked language modeling based objective and (2) correctly masking the cues to the answers is critical for good performance. We release new pretraining datasets and achieve state-of-the-art results on 4 MCQA datasets, notably +5.7\% with base-size model on MedQA-USMLE.
Autores: Damien Sileo, Kanimozhi Uma, Marie-Francine Moens
Última atualização: 2023-03-13 00:00:00
Idioma: English
Fonte URL: https://arxiv.org/abs/2303.07069
Fonte PDF: https://arxiv.org/pdf/2303.07069
Licença: https://creativecommons.org/licenses/by/4.0/
Alterações: Este resumo foi elaborado com a assistência da AI e pode conter imprecisões. Para obter informações exactas, consulte os documentos originais ligados aqui.
Obrigado ao arxiv pela utilização da sua interoperabilidade de acesso aberto.
Ligações de referência
- https://paperswithcode.com/sota/question-answering-on-medqa-usmle
- https://huggingface.co/datasets/sileod/wikimedqa
- https://en.wikipedia.org/wiki/Category:All_WikiProject_Medicine_articles
- https://www.wikidoc.org/index.php?title=Special:AllPages
- https://wikem.org/w/index.php?title=Special:AllPages&hideredirects=1