Avaliando a Confiabilidade da Fonte dos Modelos de Linguagem na Saúde
Avaliar como modelos de linguagem apoiam reivindicações médicas com referências confiáveis.
― 8 min ler
Índice
- A Importância das Referências Médicas
- Avaliando o Apoio das Fontes
- Crescente Interesse em LLMs na Saúde
- Avaliando LLMs
- Pipeline do SourceCheckup
- Desafios com Alucinações
- Insights do SourceCheckup
- Contexto Regulatório
- O Futuro dos LLMs e Fontes Médicas
- Contribuições para o Campo
- Resultados da Avaliação
- Compreendendo o Desempenho dos LLMs
- Importância da Verificação de Fontes
- A Necessidade de Melhoria
- Implicações Mais Amplas Além da Medicina
- Conclusão
- Fonte original
- Ligações de referência
Modelos de linguagem grandes (LLMs) estão sendo usados para responder perguntas médicas em diferentes áreas da saúde. Alguns dos melhores modelos comerciais também conseguem citar fontes para apoiar suas respostas. Este artigo analisa se as fontes que esses modelos fornecem realmente sustentam as afirmações que fazem.
A Importância das Referências Médicas
A informação médica precisa ser correta e confiável. Ter acesso a referências sólidas ajuda clínicos e pacientes a verificarem as informações que recebem. Muitos profissionais de saúde estão cientes dos desafios envolvidos no uso de LLMs, especialmente em relação à precisão e confiabilidade das informações que eles oferecem. Essa preocupação é significativa, já que informações médicas incorretas podem prejudicar os pacientes. Portanto, entender o quão bem os LLMs conseguem fornecer referências médicas relevantes é crucial.
Avaliando o Apoio das Fontes
Para avaliar o quão bem os LLMs citam fontes médicas, este artigo destaca três contribuições principais:
Usando Opinião de Especialistas: Validar a relevância das fontes geralmente é caro e demorado. No entanto, descobriu-se que modelos mais novos como o GPT-4 conseguem avaliar com precisão a relevância das fontes, concordando com um painel de médicos na maior parte do tempo.
Pipeline de Avaliação Automatizada: Um sistema automatizado chamado SourceCheckup foi desenvolvido para avaliar cinco LLMs líderes. Essa avaliação analisou um conjunto de 1200 perguntas geradas, resultando em mais de 40.000 pares de declarações e fontes. Notavelmente, foi descoberto que uma grande parte das respostas dos modelos (entre 50% e 90%) não tinha apoio total das fontes fornecidas. Mesmo com modelos avançados como o GPT-4, cerca de 30% das declarações individuais careciam de suporte.
Dataset Open Source: Os autores compartilharam seu dataset selecionado de perguntas médicas e anotações de especialistas para que outros possam usar em avaliações futuras. Dado o quão rapidamente os LLMs estão se desenvolvendo, saber como produzir referências médicas confiáveis é vital para evitar riscos potenciais de informações incorretas ou desatualizadas.
Crescente Interesse em LLMs na Saúde
À medida que os modelos de linguagem ganham popularidade na medicina, muitos profissionais de saúde podem passar a depender deles para educação e prática clínica. Enquanto não há aprovação oficial de órgãos reguladores como a FDA para o uso de LLMs em suporte à decisão médica, modelos como o GPT-4 e outros mostraram resultados melhores do que clínicos em exames médicos. Os LLMs já estão sendo usados em várias aplicações, desde chatbots para suporte à saúde mental até ajudar os usuários a encontrarem diagnósticos possíveis para doenças raras que podem ser negligenciadas pelos médicos.
Avaliando LLMs
A avaliação para verificação de fontes nesses modelos envolve três métricas:
- Validade do URL da Fonte: Isso mede a porcentagem de URLs gerados que levam a páginas da web válidas.
- Suporte em Nível de Declaração: Isso observa qual porcentagem das declarações feitas é apoiada por pelo menos uma fonte da mesma resposta.
- Suporte em Nível de Resposta: Isso verifica quantas respostas incluem todas as declarações apoiadas por fontes.
Pipeline do SourceCheckup
A estrutura de avaliação do SourceCheckup tem quatro partes principais:
- Geração de Perguntas: Perguntas são criadas a partir de textos de referência médica.
- Respostas de Perguntas com LLM: Cada LLM recebe uma pergunta e fornece respostas junto com fontes.
- Análise de Declarações e Fontes: As respostas são analisadas para encontrar declarações individuais e suas fontes correspondentes.
- Verificação de Fontes: Um modelo verifica se as declarações são apoiadas pelas fontes fornecidas.
Essa estrutura oferece uma abordagem sistemática para verificar as fontes ligadas às reivindicações médicas feitas pelos LLMs.
Alucinações
Desafios comOs LLMs às vezes produzem conteúdos que não são baseados em nenhuma fonte real, conhecido como alucinação. Em cenários médicos, isso pode levar a uma perda de confiança e possíveis consequências prejudiciais. A confiança é vital para os trabalhadores da saúde ao considerar adotar LLMs em seu trabalho, especialmente quando esses modelos falham em gerar fontes apropriadas para suas alegações médicas.
Insights do SourceCheckup
Um exemplo real do processo SourceCheckup envolve criar uma pergunta a partir de uma referência médica, consultar um modelo de linguagem para uma resposta e, em seguida, validar se cada declaração é suficientemente apoiada pelas fontes fornecidas. Essa avaliação detalhada ajuda a avaliar a precisão do modelo em fornecer informações verificáveis.
Contexto Regulatório
Há uma necessidade urgente de os LLMs citarem suas fontes, não apenas para ganhar a confiança de clínicos e pacientes, mas também para atender às demandas regulatórias. Entidades como a FDA apontaram a necessidade de regular LLMs usados em suporte à decisão. Entender quão bem essas ferramentas transmitem conhecimento médico confiável é essencial para moldar futuras regulamentações.
O Futuro dos LLMs e Fontes Médicas
Dadas as rápidas inovações na tecnologia dos LLMs, encontrar maneiras eficazes de avaliar seu desempenho é crítico. Esses modelos precisam ser capazes de fornecer fontes confiáveis que permitam aos usuários examinarem a mecânica por trás de suas declarações. Inovações como geração aumentada por recuperação (RAG) têm o potencial de aprimorar as habilidades dos LLMs, permitindo que eles obtenham informações relevantes da web. No entanto, ainda não está claro se essas fontes apoiam completamente as alegações feitas no conteúdo gerado.
Contribuições para o Campo
O trabalho descrito aqui apresenta novas contribuições para a área médica. Primeiro, cria uma nova coleção de pares de declaração-fonte específicos da medicina. Segundo, demonstra que os LLMs podem ser eficazes em avaliar sua própria atribuição de fontes. Por último, a estrutura automatizada permite uma avaliação fácil de quão bem os modelos líderes se saem, ajudando a preencher as lacunas nos modelos atuais.
Resultados da Avaliação
As avaliações destacaram o seguinte:
- O GPT-4 (RAG) foi o melhor desempenho em termos de fornecer citações, mas mesmo assim, apenas cerca de 54% de suas respostas estavam totalmente apoiadas.
- Outros modelos de topo tinham taxas significativamente mais baixas de fornecimento de URLs válidos e respostas apoiadas.
- Modelos sem acesso à web produziram URLs válidos apenas 40% a 70% das vezes.
Compreendendo o Desempenho dos LLMs
Diferentes tipos de perguntas também influenciaram como esses modelos se saíram. Por exemplo, respostas baseadas em materiais da Mayo Clinic tiveram um desempenho melhor do que aquelas geradas a partir de conteúdo gerado por usuários, como Reddit. Isso sugere que a natureza das perguntas pode impactar a qualidade e relevância das respostas geradas pelos LLMs.
Importância da Verificação de Fontes
Verificar com precisão as fontes da informação médica é uma preocupação urgente. À medida que os LLMs se tornam mais integrados em ambientes clínicos, garantir informações confiáveis é crucial para os clínicos que tomam decisões. Os achados revelam que, embora os LLMs possam gerar muitas fontes, muitas não fornecem o respaldo necessário para as declarações feitas.
A Necessidade de Melhoria
Essa análise revela uma lacuna significativa entre as capacidades atuais dos LLMs e as expectativas para aplicações médicas. Os modelos precisam ser treinados para produzir verificações de fonte precisas para garantir que possam fornecer conselhos médicos confiáveis. Um ponto de foco para o futuro é aprimorar os LLMs para discernir melhor quais fontes são válidas e quais não são.
Implicações Mais Amplas Além da Medicina
A necessidade de verificação de fontes confiáveis se estende além da saúde para outros campos, como direito e jornalismo. Garantir que as reivindicações sejam apoiadas por fontes ajuda a manter a integridade e a responsabilidade em muitos setores profissionais.
Conclusão
Em conclusão, os LLMs estão se tornando ferramentas valiosas na saúde, mas atualmente enfrentam desafios em relação à fonte e verificação de informações médicas. A capacidade de fornecer referências confiáveis é essencial para a adoção bem-sucedida dos LLMs na medicina clínica. Avanços contínuos em tecnologia e métodos de avaliação ajudarão a enfrentar esses desafios, levando a uma integração mais confiável dos LLMs nas práticas de saúde.
Título: How well do LLMs cite relevant medical references? An evaluation framework and analyses
Resumo: Large language models (LLMs) are currently being used to answer medical questions across a variety of clinical domains. Recent top-performing commercial LLMs, in particular, are also capable of citing sources to support their responses. In this paper, we ask: do the sources that LLMs generate actually support the claims that they make? To answer this, we propose three contributions. First, as expert medical annotations are an expensive and time-consuming bottleneck for scalable evaluation, we demonstrate that GPT-4 is highly accurate in validating source relevance, agreeing 88% of the time with a panel of medical doctors. Second, we develop an end-to-end, automated pipeline called \textit{SourceCheckup} and use it to evaluate five top-performing LLMs on a dataset of 1200 generated questions, totaling over 40K pairs of statements and sources. Interestingly, we find that between ~50% to 90% of LLM responses are not fully supported by the sources they provide. We also evaluate GPT-4 with retrieval augmented generation (RAG) and find that, even still, around 30\% of individual statements are unsupported, while nearly half of its responses are not fully supported. Third, we open-source our curated dataset of medical questions and expert annotations for future evaluations. Given the rapid pace of LLM development and the potential harms of incorrect or outdated medical information, it is crucial to also understand and quantify their capability to produce relevant, trustworthy medical references.
Autores: Kevin Wu, Eric Wu, Ally Cassasola, Angela Zhang, Kevin Wei, Teresa Nguyen, Sith Riantawan, Patricia Shi Riantawan, Daniel E. Ho, James Zou
Última atualização: 2024-02-02 00:00:00
Idioma: English
Fonte URL: https://arxiv.org/abs/2402.02008
Fonte PDF: https://arxiv.org/pdf/2402.02008
Licença: https://creativecommons.org/licenses/by/4.0/
Alterações: Este resumo foi elaborado com a assistência da AI e pode conter imprecisões. Para obter informações exactas, consulte os documentos originais ligados aqui.
Obrigado ao arxiv pela utilização da sua interoperabilidade de acesso aberto.
Ligações de referência
- https://archive.org/help/wayback_api.php
- https://pypi.org/project/python-whois/
- https://www.mayoclinic.org/diseases-conditions/carpal-tunnel-syndrome/symptoms-causes/syc-20355603
- https://www.uptodate.com/contents/congenital-toxoplasmosis-treatment-outcome-and-prevention
- https://www.reddit.com/r/AskDocs/comments/18r0cyg/gallbladder_or_pulled_muscle/