Chatbots Avaliam Desempenho em Exames Médicos
Estudo avalia a eficácia de chatbots de IA em exames de licenciamento médico.
― 7 min ler
Índice
- Observações Iniciais Sobre o Desempenho dos Chatbots
- Preocupações e Potencial
- Visão Geral do Estudo
- Metodologia
- Avaliação de Desempenho
- Resultados do Desempenho no Exame
- Motivos para os Erros
- Perguntas Fracas Identificadas
- Comparação das Respostas dos Bots
- Conclusões
- Recomendações para Uso Futuro
- Considerações Futuras
- Fonte original
A Inteligência Artificial (IA) tá mudando várias áreas, incluindo a medicina e como os alunos de medicina aprendem. Uma ferramenta bem interessante são os Chatbots de IA, que podem ajudar na formação e educação. Esses chatbots podem oferecer prática simulada, dar feedback personalizado e ajudar no treinamento clínico. Mas, antes de usar esses chatbots em programas de medicina, a gente precisa ver como eles realmente funcionam.
Observações Iniciais Sobre o Desempenho dos Chatbots
Quando os chatbots foram lançados, as faculdades de medicina começaram a testá-los com simulações de exames. Os resultados mostraram que, enquanto alguns chatbots deram respostas corretas e sensatas, outros cometeram erros claros ou deram respostas erradas com confiança. Esses problemas podem vir dos dados usados pra treinar os bots, que podem ter vieses ou informações erradas. No geral, os chatbots tinham notas em torno da média de aprovação, com alguns superando os alunos. O desempenho deles foi geralmente melhor em perguntas mais fáceis e quando os exames eram em inglês. À medida que os exames ficavam mais difíceis, as notas dos chatbots caíam. Mesmo assim, versões mais novas dos bots costumam performar melhor que as antigas, indicando que estão melhorando com o tempo.
Preocupações e Potencial
As escolas já estão preocupadas com a possibilidade de trapaça em exames usando esses chatbots. Porém, eles também podem ser úteis pra criar testes, identificando perguntas confusas ou mal redigidas. Não há muita pesquisa comparando diferentes chatbots, e os estudos existentes costumam focar em apenas alguns bots sem medir com que frequência eles erram.
Visão Geral do Estudo
Esse estudo se concentrou em um exame teórico importante que todos os alunos de medicina precisam passar pra conseguir o diploma. O exame foi realizado em 2021 na Bélgica e é parecido com os exames de licenciamento em outros países. Seis chatbots diferentes foram testados nesse exame, analisando o desempenho de cada um. O objetivo do estudo foi medir o desempenho deles, avaliar com que frequência cometeram erros e ver se algumas perguntas do exame eram fracas.
Metodologia
O estudo recebeu aprovação do comitê de ética da universidade. Os alunos de medicina precisam passar em um exame com 102 questões de múltipla escolha cobrindo vários tópicos antes de se tornarem Médicos licenciados. Esse estudo analisou o exame como ele foi apresentado aos alunos durante o treinamento. As questões não estavam disponíveis online, então não influenciaram o treinamento dos chatbots.
Seleção dos Chatbots
Seis chatbots públicos foram escolhidos pra teste. Os chatbots gratuitos mais populares incluíram ChatGPT, Bard e Bing. Duas versões pagas, Claude Instant e Claude+, além do GPT-4, também foram incluídas pra ver como se comparavam às versões gratuitas. Embora o Bing use a mesma tecnologia do GPT-4, ele puxa informações de outras fontes, tornando-se uma versão personalizada.
Coleta de Dados
As perguntas do exame foram traduzidas para o inglês usando um serviço de tradução, mantendo o estilo original de redação. Algumas perguntas que eram locais da Bélgica ou continham imagens foram removidas pra garantir clareza. Os bots foram testados na capacidade de responder a essas perguntas, e os pesquisadores tiveram que solicitar várias vezes respostas do Bard pra algumas questões.
Avaliação de Desempenho
O foco principal foi como os chatbots podiam responder às perguntas do exame. Eles foram pontuados com base na proporção de respostas corretas. Se um chatbot escolhesse uma resposta que não era a melhor, recebia crédito parcial, enquanto escolher uma resposta prejudicial resultava em perda de pontos. As perguntas se dividiam em diferentes categorias com base em sua dificuldade, tipo, e se incluíam respostas perigosas.
O estudo também analisou com que frequência cada chatbot cometeu erros, incluindo a identificação de problemas com perguntas específicas do exame.
Resultados do Desempenho no Exame
Resumindo, Bing e GPT-4 foram os melhores no exame, com uma pontuação de 76%, enquanto a média de todos os bots foi 68%. Embora todos os bots tenham respondido algumas perguntas de forma errada, o Bard não escolheu respostas erradas ou perigosas. O Bing teve algumas respostas que eram a segunda melhor, enquanto outros bots tiveram mais. O Bard teve dificuldade em responder várias perguntas e muitas vezes precisou de estímulos.
Quando analisamos perguntas difíceis, os bots se saíram melhor que os alunos, que tiveram uma média de pontuação significativamente mais baixa. O estudo constatou que Bing e GPT-4 eram especialmente fortes em perguntas mais fáceis, mas tiveram dificuldades em questões mais complexas.
Motivos para os Erros
Para as respostas incorretas, o estudo examinou com que frequência os bots deram respostas que não faziam sentido ou eram falsas. O Bing teve menos respostas sem sentido que o Bard e o Claude Instant, mas ainda cometeu alguns erros. Esses erros geralmente surgiram devido a mal-entendidos sobre o contexto das perguntas.
Perguntas Fracas Identificadas
Durante a análise, algumas perguntas foram identificadas como fracas ou confusas. Por exemplo, uma pergunta sobre quando iniciar a terapia de substituição renal tinha opções enganosas que poderiam confundir tanto os bots quanto os alunos.
Comparação das Respostas dos Bots
Entre todos os bots, alguns tiveram Desempenhos semelhantes, enquanto outros tiveram diferenças maiores em precisão. Os pesquisadores também analisaram quão bem os bots concordavam entre si nas respostas. No geral, houve um nível moderado de concordância.
Conclusões
O estudo destacou diferenças significativas entre os chatbots em termos de desempenho no exame de licenciamento médico. O Bing se destacou pela sua confiabilidade, pois fez menos erros em comparação com os outros bots. Embora as melhorias no desempenho dos chatbots sejam encorajadoras, é importante ter cautela ao depender deles para conhecimento médico. Os achados também levantam questões sobre a eficácia dos exames de múltipla escolha em avaliar as habilidades que futuros médicos precisam, especialmente em relação à interação humana.
Recomendações para Uso Futuro
O Bing pode ser uma ferramenta útil pra identificar perguntas de exame mal elaboradas, economizando tempo e esforço dos educadores. Os resultados também sugerem que os chatbots poderiam ser especialmente úteis em áreas onde os alunos têm dificuldade, principalmente em perguntas difíceis.
O estudo pede mais pesquisas pra explorar como os chatbots se saem em diferentes tipos de perguntas e em vários ambientes educacionais. É claro que, enquanto os chatbots podem ser ferramentas úteis, eles não devem ser confundidos com profissionais médicos de verdade.
Considerações Futuras
À medida que o uso de IA na educação cresce, questões éticas e legais precisam ser abordadas, incluindo consumo de energia, privacidade de dados e uso adequado de material protegido por direitos autorais. Antes de implementar a IA mais amplamente na educação médica, é crucial entender melhor essas questões.
No geral, embora seis chatbots de IA tenham passado com sucesso em um exame médico importante, Bing e GPT-4 se destacaram como os mais eficazes. No entanto, as fraquezas dos bots, especialmente em questões difíceis, ressaltam a necessidade de mais pesquisa e aprimoramento antes que possam ser totalmente confiáveis em um ambiente médico.
Título: Microsoft Bing outperforms five other generative artificial intelligence chatbots in the Antwerp University multiple choice medical license exam
Resumo: Recently developed chatbots based on large language models (further called bots) have promising features which could facilitate medical education. Several bots are freely available, but their proficiency has been insufficiently evaluated. In this study the authors have tested the current performance on the multiple-choice medical licensing exam of University of Antwerp (Belgium) of six widely used bots: ChatGPT (OpenAI), Bard (Google), New Bing (Microsoft), Claude instant (Anthropic), Claude+ (Anthropic) and GPT-4 (OpenAI). The primary outcome was the performance on the exam expressed as a proportion of correct answers. Secondary analyses were done for a variety of features in the exam questions: easy versus difficult questions, grammatically positive versus negative questions, and clinical vignettes versus theoretical questions. Reasoning errors and untruthful statements (hallucinations) in the bots answers were examined. All bots passed the exam; Bing and GPT-4 (both 76% correct answers) outperformed the other bots (62-67%, p= 0.03) and students (61%). Bots performed worse on difficult questions (62%, p= 0.06), but outperformed students (32%) on those questions even more (p
Autores: Stefan Morreel, V. Verhoeven, D. Mathysen
Última atualização: 2023-08-21 00:00:00
Idioma: English
Fonte URL: https://www.medrxiv.org/content/10.1101/2023.08.18.23294263
Fonte PDF: https://www.medrxiv.org/content/10.1101/2023.08.18.23294263.full.pdf
Licença: https://creativecommons.org/licenses/by/4.0/
Alterações: Este resumo foi elaborado com a assistência da AI e pode conter imprecisões. Para obter informações exactas, consulte os documentos originais ligados aqui.
Obrigado ao medrxiv pela utilização da sua interoperabilidade de acesso aberto.