Simple Science

Ciência de ponta explicada de forma simples

# Ciências da saúde# Informatica sanitaria

Avaliando o GPT-3.5-turbo em Medicina de Emergência

Estudo analisa a capacidade do GPT-3.5-turbo de dar recomendações clínicas em situações de emergência.

― 7 min ler


O Papel da IA nosO Papel da IA nosCuidados de Emergênciarecomendações clínicas.O GPT-3.5-turbo tem dificuldades com
Índice

Desde seu lançamento em novembro de 2022, o ChatGPT chamou bastante atenção do público. Relatos mostram que ele rapidamente atingiu mais de 100 milhões de usuários mensais. O modelo, conhecido como GPT-3.5-turbo, responde perguntas e ajuda a resolver problemas em formato de chat. Sua versão mais nova, o GPT-4, também está em uso. Pesquisadores começaram a investigar como esses modelos se saem em ambientes clínicos. Estudos mostram que o GPT-3.5-turbo pode dar conselhos úteis sobre prevenção de doenças cardíacas. Além disso, suas respostas a perguntas de saúde nas redes sociais foram consideradas mais empáticas do que as de Médicos.

Atual Cenário de Pesquisa

Tem um número crescente de estudos explorando como os modelos GPT podem ser usados na saúde. No entanto, a maioria desses estudos não se baseia em anotações de pacientes reais de clínicas. Em vez disso, eles costumam usar perguntas de teste ou desafios médicos disponíveis publicamente para avaliar os modelos. Uma razão para isso é a dificuldade de compartilhar informações privadas dos pacientes (PHI) de forma segura, como exige a lei. Por causa disso, os modelos foram testados principalmente em conjuntos de dados curados, que diferem bastante das anotações clínicas reais. Isso levanta preocupações sobre o quão bem esses modelos podem se sair em situações clínicas reais.

À medida que esses modelos de linguagem ficam mais populares e acessíveis, é crucial entender seus pontos fortes e fracos ao lidar com informações reais de pacientes. Pesquisas anteriores mostraram que o GPT-3.5-turbo conseguiu identificar pacientes que precisavam de atendimento urgente, mesmo sem treinamento especial. Outro estudo descobriu que o GPT-4 diagnosticou com Precisão muitos casos apresentados em conferências médicas, mas sua capacidade de analisar anotações reais de pacientes ainda é incerta.

Uma Nova Abordagem de Estudo

Este estudo teve como objetivo avaliar o desempenho do GPT-3.5-turbo em fazer Recomendações clínicas para pacientes no Departamento de Emergência (ED). Especificamente, o estudo focou em três tipos de recomendações:

  1. O paciente deve ser internado no hospital?
  2. O paciente deve passar por algum exame de imagem (como raio-X ou tomografias)?
  3. O paciente deve receber antibióticos?

Os pesquisadores começaram criando amostras equilibradas de visitas ao ED para analisar o quão bem o modelo poderia fazer essas recomendações. Isso significa que escolheram um número igual de casos em que a resposta era sim e não para cada tipo de recomendação. Depois disso, verificaram a precisão das recomendações do modelo em comparação com os resultados reais registrados nos prontuários dos pacientes.

Métodos do Estudo

O estudo olhou para um total de mais de 251.000 visitas ao ED. A partir disso, foram criadas amostras equilibradas de 10.000 visitas para cada uma das três tarefas de recomendação. As informações usadas vieram das anotações iniciais dos médicos feitas para cada visita. Os pesquisadores então perguntaram ao GPT-3.5-turbo se o paciente deveria ser internado no hospital, se precisava de exames de imagem ou se antibióticos deveriam ser prescritos. As respostas do modelo foram comparadas com as decisões reais tomadas pelos profissionais de saúde.

Avaliação de Desempenho

Ao analisar as três tarefas de recomendação, os resultados mostraram que o desempenho do GPT-3.5-turbo não foi satisfatório. Inicialmente, o desempenho do modelo levou a muitas recomendações corretas, mas também a um alto número de sugestões incorretas. Por exemplo, quando perguntado se um paciente deveria ser internado, o modelo tendia a sugerir a internação mais vezes do que o necessário, resultando em uma alta taxa de falsos positivos.

Os pesquisadores tentaram modificar a forma como faziam as perguntas para melhorar a precisão. Por exemplo, adicionaram frases como "sugerir apenas se absolutamente necessário" para ver se isso impactava as recomendações. Enquanto algumas mudanças melhoraram a capacidade do modelo de evitar sugestões desnecessárias, o desempenho geral ainda ficou abaixo do dos médicos humanos.

Para entender melhor como o modelo se saiu em comparação com médicos reais, os pesquisadores pegaram uma amostra menor de 200 casos para comparação direta. Eles descobriram que os médicos tiveram uma taxa de precisão maior do que o GPT-3.5-turbo em todas as três tarefas de recomendação, confirmando que os médicos eram muito melhores em tomar essas decisões complexas.

Aplicação no Mundo Real

Em seguida, os pesquisadores queriam ver como o modelo se saiu em uma situação mais realista, com uma amostra maior e desbalanceada de 1.000 visitas ao ED. Essa amostra refletia mais de perto os resultados reais dos pacientes. As descobertas mostraram que a precisão das recomendações feitas por médicos residentes era significativamente maior do que as feitas pelo GPT-3.5-turbo. Por exemplo, a precisão dos médicos em decidir se um paciente deveria ser internado no hospital era em torno de 83%, enquanto a precisão do GPT-3.5-turbo era bem menor.

Isso destaca uma lacuna significativa no desempenho entre modelos de IA e a expertise humana na tomada de decisões clínicas. A tendência do modelo de recomendar ações na maioria dos casos levanta preocupações. Os recursos hospitalares são limitados, e intervenções desnecessárias podem levar a custos maiores e potenciais danos aos pacientes.

Limitações

O estudo tem suas limitações. Existe a chance de que nem todas as informações necessárias estivessem presentes nas anotações dos médicos, o que poderia ter afetado as recomendações. Por exemplo, as decisões sobre exames de imagem ou internações podem mudar com base em descobertas que aparecem após a revisão inicial. Apesar dessas limitações, os médicos ainda conseguiram uma precisão respeitável.

Outra limitação é que apenas algumas alterações foram feitas na forma como as perguntas foram feitas para testar o modelo. Experimentos mais extensos com diferentes tipos de prompts poderiam mostrar resultados melhores.

Além disso, este estudo não testou o novo modelo GPT-4, que pode ter um desempenho melhor nessas tarefas. Testes com outros modelos de processamento de linguagem natural ou métodos mais simples não foram feitos, mas esses modelos tradicionais poderiam superar as habilidades de zero-shot dos modelos GPT.

Conclusões

Esta pesquisa oferece uma visão inicial de como o GPT-3.5-turbo pode gerar recomendações clínicas usando texto clínico real. Nas três tarefas de recomendação, o modelo mostrou fraquezas, com uma tendência a recomendar intervenções com muita frequência, resultando em várias sugestões incorretas. Ajustar a forma como as perguntas foram feitas ajudou um pouco, mas o desempenho geral ainda ficou abaixo do dos médicos humanos.

As descobertas sugerem que o GPT-3.5-turbo é excessivamente cauteloso e muitas vezes assume que as intervenções são necessárias, o que pode sobrecarregar os recursos hospitalares e trazer riscos potenciais para os pacientes. Compreender o equilíbrio certo entre sensibilidade e especificidade em modelos clínicos é essencial, e a melhor abordagem pode variar dependendo da tarefa.

Antes de implementar tais modelos em ambientes clínicos, é crucial conhecer totalmente tanto suas capacidades quanto limitações para evitar quaisquer consequências indesejadas. Embora haja um interesse crescente no uso de grandes modelos de linguagem na saúde, este estudo indica que ainda há muito a ser feito, especialmente para tarefas mais complexas como a tomada de decisões clínicas.

Pesquisas futuras devem continuar a avaliar o desempenho de vários modelos de linguagem em contextos médicos, especialmente à medida que a tecnologia avança e os modelos se tornam mais sofisticados. Identificar tarefas em que esses modelos se destacam e aquelas em que falham é importante para seu uso seguro e eficaz na saúde.

Fonte original

Título: Evaluating the use of GPT-3.5-turbo to provide clinical recommendations in the Emergency Department

Resumo: The release of GPT-3.5-turbo (ChatGPT) and other large language models (LLMs) has the potential to transform healthcare. However, existing research evaluating LLM performance on real-world clinical notes is limited. Here, we conduct a highly-powered study to determine whether GPT-3.5-turbo can provide clinical recommendations for three tasks (admission status, radiological investigation(s) request status, and antibiotic prescription status) using clinical notes from the Emergency Department. We randomly select 10,000 Emergency Department visits to evaluate the accuracy of zero-shot, GPT-3.5-turbo-generated clinical recommendations across four different prompting strategies. We find that GPT-3.5-turbo performs poorly compared to a resident physician, with accuracy scores 24% lower on average. GPT-3.5-turbo tended to be overly cautious in its recommendations, with high sensitivity at the cost of specificity. Our findings demonstrate that, while early evaluations of the clinical use of LLMs are promising, LLM performance must be significantly improved before their deployment as decision support systems for clinical recommendations and other complex tasks.

Autores: Christopher Y.K. Williams, B. Y. Miao, A. J. Butte

Última atualização: 2023-10-20 00:00:00

Idioma: English

Fonte URL: https://www.medrxiv.org/content/10.1101/2023.10.19.23297276

Fonte PDF: https://www.medrxiv.org/content/10.1101/2023.10.19.23297276.full.pdf

Licença: https://creativecommons.org/licenses/by/4.0/

Alterações: Este resumo foi elaborado com a assistência da AI e pode conter imprecisões. Para obter informações exactas, consulte os documentos originais ligados aqui.

Obrigado ao medrxiv pela utilização da sua interoperabilidade de acesso aberto.

Mais de autores

Artigos semelhantes