Avaliação de Modelos de Linguagem em Física da Oncologia Radioterápica
Esse estudo analisa o desempenho de modelos de linguagem em avaliações de física na oncologia radioterápica.
― 7 min ler
Esse estudo analisa quão bem os grandes modelos de linguagem (LLMs) conseguem responder perguntas sobre um campo específico: física da oncologia por radiação. Exames tradicionais em matérias populares não mostram claramente as habilidades dos LLMs, já que existem muitos recursos para ajudar os alunos a se prepararem. Para ter uma compreensão melhor, focamos em uma área especializada como a física da oncologia por radiação, que é importante para comunidades científicas e médicas.
Criamos um exame com 100 perguntas cobrindo várias áreas da física da oncologia por radiação, baseado na nossa experiência na Mayo Clinic. Testamos quatro LLMs: ChatGPT (versões GPT-3.5 e GPT-4), Bard e BLOOMZ. O Desempenho deles foi comparado ao de físicos médicos e indivíduos sem experiência na área. O ChatGPT (GPT-4) foi melhor que os outros modelos de linguagem e até superou a média dos físicos médicos.
Curiosamente, quando solicitado a explicar as respostas antes de dar a escolha final, o ChatGPT (GPT-4) se saiu ainda melhor. Ele também mostrou escolhas de resposta consistentes em vários testes, o que não aconteceu com os grupos humanos. Em um teste especial de raciocínio, onde as respostas corretas foram substituídas por "Nenhuma das acima", o ChatGPT (GPT-4) ainda conseguiu identificar as respostas corretamente, sugerindo que ele possui algumas capacidades de raciocínio avançadas.
Apesar do ChatGPT (GPT-4) mostrar um bom desempenho, ele não conseguiu melhorar mais quando usou um sistema de votação majoritária para respostas em diferentes testes. Por outro lado, físicos médicos trabalhando em equipe mostraram um desempenho muito melhor usando votos de maioria, destacando o potencial dos LLMs para ajudar especialistas na área.
O que são Grandes Modelos de Linguagem?
Grandes modelos de linguagem, ou LLMs, são ferramentas avançadas usadas em processamento de linguagem natural. Eles mudaram bastante a forma como as máquinas entendem e respondem à linguagem humana. Anteriormente, modelos personalizados eram criados para tarefas específicas, exigindo muitos ajustes baseados em dados de treinamento. Em contrapartida, os LLMs podem lidar com várias tarefas com treinamento extra mínimo, graças ao seu grande tamanho e capacidade de aprender com exemplos dados durante a fase de solicitação.
Avanços recentes trouxeram modelos como o ChatGPT para o centro das atenções, ganhando ampla popularidade devido às suas impressionantes habilidades linguísticas. O ChatGPT é construído com base no modelo GPT-3, que inclui bilhões de parâmetros e foi treinado com dados diversos da internet. Essa base permite que o ChatGPT se destaque em muitas tarefas de linguagem, como gerar texto ou resumir informações.
A introdução do GPT-4 marcou ainda mais progresso, que não apenas tem um desempenho melhor que seu antecessor, mas também consegue lidar com entradas de imagem, permitindo aplicações interessantes. Ele mostrou um bom desempenho em vários exames acadêmicos e profissionais, demonstrando sua habilidade para lidar com assuntos complexos.
A Necessidade de Avaliações Especializadas
Embora os LLMs tenham sido testados em exames populares onde muitos participaram, essas avaliações muitas vezes não representam verdadeiramente suas capacidades. Portanto, faz sentido avaliar os LLMs em áreas mais obscuras e especializadas, onde os dados de treinamento são menos extensos.
Por exemplo, em 2022, apenas 162 graduados se inscreveram em programas de residência em oncologia por radiação. Isso mostra que a área não é muito conhecida pelo público em geral, tornando-a um terreno de teste mais adequado para os LLMs.
Uma característica chave dessa avaliação é garantir que as perguntas usadas nos testes não tenham feito parte dos dados de treinamento dos LLMs. Criar perguntas novas é vital para evitar contaminação e fornecer uma avaliação justa.
O Processo de Exame
Desenhamos um exame de múltipla escolha com perguntas adaptadas à física da oncologia por radiação. Os tópicos incluíam princípios básicos da física, medições de radiação, planejamento de tratamento, imagem, procedimentos especiais e protocolos de segurança. Algumas perguntas exigiam cálculos numéricos.
O exame foi aplicado a cada LLM em cinco testes separados, exceto para o BLOOMZ, que foi testado uma vez. Cada teste começou com um prompt introdutório informando o modelo que ele seria testado. As instruções direcionaram o LLM a fornecer apenas a resposta correta sem explicações.
O desempenho dos LLMs foi analisado em relação aos resultados de participantes humanos, incluindo grupos de físicos médicos e não especialistas. Cada participante humano teve três horas para completar o exame, garantindo um ambiente consistente para a avaliação.
Comparando LLMs com Humanos
Os resultados do exame mostraram que, embora LLMs como ChatGPT (GPT-3.5 e GPT-4) superassem muito os não especialistas, suas pontuações precisam considerar o desempenho dos físicos médicos, que também foram testados. O ChatGPT (GPT-4) conseguiu superar os físicos médicos em geral, mas grupos de médicos individuais se saíram melhor quando as respostas foram combinadas através de uma votação de maioria.
A consistência entre os LLMs em comparação com as respostas humanas também foi notável. Os LLMs mostraram menos variabilidade em suas respostas, pontuando de forma semelhante nos testes, enquanto os participantes humanos exibiram mais variações em seu conhecimento e raciocínio.
Melhorando a Precisão do ChatGPT
Durante o estudo, experimentamos uma abordagem que exigia que o ChatGPT (GPT-4) explicasse seu raciocínio antes de afirmar uma resposta. Esse método aumentou a precisão, especialmente em perguntas envolvendo cálculos.
Também examinamos quão bem o ChatGPT lidava com perguntas onde a resposta correta foi substituída por "Nenhuma das opções acima está correta." Isso apresentou um desafio único para o modelo, simulando uma situação onde a resposta não se conectava diretamente ao conhecimento comum. Nossas descobertas sugeriram que pedir para explicar primeiro poderia melhorar suas capacidades de resolução de problemas.
Juntando LLMs com Especialistas
Apesar de modelos LLM individuais como o ChatGPT (GPT-4) terem mostrado habilidades impressionantes, uma equipe de físicos médicos trabalhando juntos alcançou resultados notáveis que superaram o desempenho dos LLMs. Isso destaca a importância da expertise humana em campos especializados.
Quando os humanos trabalharam em grupo, seus esforços colaborativos resultaram em melhores tomadas de decisão, confirmando que os LLMs, apesar de sua força, ainda se beneficiam do conhecimento sutil de profissionais treinados.
O Futuro dos LLMs em Campos Especializados
O potencial dos LLMs, especialmente em áreas como oncologia por radiação, é promissor. Eles podem servir como assistentes conhecedores, ajudando profissionais a tomar decisões informadas enquanto fornecem acesso rápido a informações confiáveis. No entanto, é crucial lembrar que, embora os LLMs possam se sair bem em exames, eles não possuem a compreensão abrangente e a profundidade que os profissionais humanos trazem ao seu trabalho.
Conclusão
Em conclusão, esta avaliação dos LLMs na física da oncologia por radiação ilumina suas capacidades e limitações. O estudo sugere que, embora os LLMs, especialmente o ChatGPT (GPT-4), tenham feito avanços significativos, eles não podem substituir totalmente a expertise e a visão dos especialistas humanos. A colaboração entre LLMs avançados e profissionais médicos pode levar a decisões aprimoradas e eficiência em campos especializados no futuro.
Ao continuar explorando a integração de LLMs com o conhecimento especializado, podemos desbloquear novas possibilidades nas práticas médicas, beneficiando, em última análise, tanto os praticantes quanto os pacientes.
Título: Evaluating Large Language Models on a Highly-specialized Topic, Radiation Oncology Physics
Resumo: We present the first study to investigate Large Language Models (LLMs) in answering radiation oncology physics questions. Because popular exams like AP Physics, LSAT, and GRE have large test-taker populations and ample test preparation resources in circulation, they may not allow for accurately assessing the true potential of LLMs. This paper proposes evaluating LLMs on a highly-specialized topic, radiation oncology physics, which may be more pertinent to scientific and medical communities in addition to being a valuable benchmark of LLMs. We developed an exam consisting of 100 radiation oncology physics questions based on our expertise at Mayo Clinic. Four LLMs, ChatGPT (GPT-3.5), ChatGPT (GPT-4), Bard (LaMDA), and BLOOMZ, were evaluated against medical physicists and non-experts. ChatGPT (GPT-4) outperformed all other LLMs as well as medical physicists, on average. The performance of ChatGPT (GPT-4) was further improved when prompted to explain first, then answer. ChatGPT (GPT-3.5 and GPT-4) showed a high level of consistency in its answer choices across a number of trials, whether correct or incorrect, a characteristic that was not observed in the human test groups. In evaluating ChatGPTs (GPT-4) deductive reasoning ability using a novel approach (substituting the correct answer with "None of the above choices is the correct answer."), ChatGPT (GPT-4) demonstrated surprising accuracy, suggesting the potential presence of an emergent ability. Finally, although ChatGPT (GPT-4) performed well overall, its intrinsic properties did not allow for further improvement when scoring based on a majority vote across trials. In contrast, a team of medical physicists were able to greatly outperform ChatGPT (GPT-4) using a majority vote. This study suggests a great potential for LLMs to work alongside radiation oncology experts as highly knowledgeable assistants.
Autores: Jason Holmes, Zhengliang Liu, Lian Zhang, Yuzhen Ding, Terence T. Sio, Lisa A. McGee, Jonathan B. Ashman, Xiang Li, Tianming Liu, Jiajian Shen, Wei Liu
Última atualização: 2023-04-01 00:00:00
Idioma: English
Fonte URL: https://arxiv.org/abs/2304.01938
Fonte PDF: https://arxiv.org/pdf/2304.01938
Licença: https://creativecommons.org/licenses/by/4.0/
Alterações: Este resumo foi elaborado com a assistência da AI e pode conter imprecisões. Para obter informações exactas, consulte os documentos originais ligados aqui.
Obrigado ao arxiv pela utilização da sua interoperabilidade de acesso aberto.