Avaliando o GPT-4V em Imagens Médicas
Uma revisão crítica do papel do GPT-4V em ambientes clínicos.
― 6 min ler
Índice
Modelos de linguagem grandes (LLMs) têm mostrado muita habilidade em lidar com várias tarefas que envolvem linguagem. Essas inovações estão impactando a medicina, especialmente em áreas como dar recomendações, resumir consultas e criar anotações clínicas. Mas medicina não é só sobre palavras; imagens são uma parte grande nas decisões médicas. Para resolver isso, novos modelos chamados de modelos multimodais grandes (LMMs) foram desenvolvidos, que conseguem processar texto e imagens. Alguns exemplos desses modelos são GPT-4V, LLaVA-Med e Med-Flamingo.
Desafios com LMMs na Medicina
Mesmo com o progresso nos LMMs, usar eles em ambientes clínicos, especialmente em áreas que dependem muito de imagens como radiologia e dermatologia, traz suas próprias dificuldades. Questões importantes incluem garantir precisão, confiabilidade e relevância para situações clínicas reais. Outra preocupação é quão fácil é interpretar os resultados desses modelos e se o raciocínio deles bate com o que os médicos esperam.
Avaliação do GPT-4V em Ambientes Clínicos
Esse artigo analisa o uso do GPT-4V, um modelo multimodal específico, em várias áreas médicas como gastroenterologia, radiologia e dermatologia. Avaliamos sua habilidade de gerar relatórios clínicos, prever diagnósticos e até avaliar tons de pele. Também checamos seu desempenho em comparação com conjuntos de dados já estabelecidos que contêm milhares de imagens e como ele lida com previsões em diferentes tons de pele. Por fim, comparamos seu desempenho com o dos especialistas médicos.
Resultados em Gastroenterologia
O desempenho do GPT-4V em gastroenterologia mostra algumas limitações significativas. A avaliação usou um conjunto de dados chamado Gastrovision, que consiste em imagens de endoscopia para julgar doenças gastrointestinais. Nesse teste, o GPT-4V alcançou uma precisão macro de apenas 11,15% e uma recuperação macro de 9,12%, o que indica que ele tem dificuldades para prever condições corretamente. No geral, sua capacidade preditiva foi menos precisa comparada a modelos anteriores como o DenseNet-121.
Resultados em Radiologia
Depois, avaliamos o desempenho do GPT-4V usando o conjunto de dados CheXpert, que contém imagens de raios-X do tórax para interpretar várias condições. O modelo mostrou uma sensibilidade de 0,56 e uma especificidade de 0,34 para detectar atelectasia, enquanto se saiu um pouco melhor na detecção de cardiomegalia, alcançando uma sensibilidade de 0,94. No geral, os resultados do GPT-4V não foram de longe tão bons quanto os modelos anteriores, mostrando que ele ainda tem um longo caminho a percorrer antes de ser útil para ajudar radiologistas.
Resultados em Dermatologia
Na dermatologia, o GPT-4V teve um desempenho um pouco melhor na geração de relatórios a partir de imagens, mas teve uma forte tendência a prever condições malignas. Por exemplo, ele frequentemente previa condições como melanoma in situ a uma taxa muito mais alta do que os dados verdadeiros mostravam. Isso pode refletir um viés para diagnósticos mais severos, provavelmente devido ao jeito que o modelo foi treinado. Além disso, o GPT-4V teve dificuldades para identificar com precisão tons de pele mais escuros, que é um problema conhecido tanto para modelos especializados quanto gerais.
Ao comparar as previsões de malignidade do GPT-4V com as dos dermatologistas, os especialistas foram significativamente mais precisos. Embora o GPT-4V tivesse uma sensibilidade maior e fosse mais cauteloso em suas previsões, a precisão geral mais baixa limita seu uso prático em ambientes clínicos.
Avaliação da Previsão de Tons de Pele Fitzpatrick
Para prever tons de pele Fitzpatrick, o GPT-4V conseguiu classificar tons de pele para 603 imagens, alcançando uma precisão de 56,5%. No entanto, ele teve dificuldades com tons de pele mais escuros, errando muitas previsões nesses grupos. Essa descoberta está alinhada com pesquisas anteriores que mostram que sistemas de IA geralmente têm um desempenho pior com tons de pele mais escuros, indicando que essa é uma área que precisa de melhorias.
Comparações com Especialistas Médicos
Quando colocamos o GPT-4V contra dermatologistas, os especialistas alcançaram uma precisão de cerca de 68%, enquanto o GPT-4V ficou atrás com cerca de 40%. Essa disparidade destaca a necessidade de um melhor treinamento e avaliação de modelos como o GPT-4V se eles forem ser úteis em cenários clínicos reais. Apesar disso, o GPT-4V teve uma sensibilidade maior, o que pode sugerir que ele pode ter potencial como uma ferramenta de triagem.
Limitações do Estudo
Essa pesquisa tem algumas limitações. Primeiro, o GPT-4V foi testado com um estilo de solicitação simples e pode ter um desempenho diferente com outros métodos. Em segundo lugar, como o GPT-4V é um modelo fechado, não sabemos os detalhes dos dados com os quais ele foi treinado, embora seu desempenho fraco sugira que provavelmente não foi treinado com os conjuntos de dados usados em nosso estudo.
Direções Futuras
Nosso estudo abriu novos caminhos para explorar como modelos gerais de IA podem se encaixar nas práticas médicas. Pesquisas futuras devem analisar quão sensível o GPT-4V é a diferentes técnicas de solicitação e como ele se sai com vários conjuntos de dados de imagem. Além disso, combinar as capacidades de IA com a expertise humana pode levar a ferramentas diagnósticas mais confiáveis, mas questões de precisão e viés precisam ser resolvidas antes que esses modelos possam ser usados em ambientes de saúde.
Conclusão
Resumindo, embora o GPT-4V mostre alguma promessa em várias áreas médicas, seu desempenho levanta preocupações importantes. Os desafios que ele enfrenta em precisão para gastroenterologia, radiologia e dermatologia destacam a dificuldade de integrar completamente a IA em ambientes clínicos. Pesquisa contínua e melhorias são essenciais para tornar a IA uma companheira útil na medicina, especialmente para melhorar a qualidade do atendimento para todos os pacientes, independentemente do tom de pele.
Título: Evaluating General Vision-Language Models for Clinical Medicine
Resumo: Recently emerging large multimodal models (LMMs) utilize various types of data modalities, including text and visual inputs to generate outputs. The incorporation of LMMs into clinical medicine presents unique challenges, including accuracy, reliability, and clinical relevance. Here, we explore clinical applications of GPT-4V, an LMM that has been proposed for use in medicine, in gastroenterology, radiology, dermatology, and United States Medical Licensing Examination (USMLE) test questions. We used standardized robust datasets with thousands of endoscopy images, chest x-ray, and skin lesions to benchmark GPT-4Vs ability to predict diagnoses. To assess bias, we also explored GPT-4Vs ability to determine Fitzpatrick skin tones with dermatology images. We found that GPT-4V is limited in performance across all four domains, resulting in decreased performance compared to previously published baseline models. The macro-average precision, recall, and F1-score for gastroenterology were 11.2%, 9.1% and 6.8% respectively. For radiology, the best performing task of identifying cardiomegaly had precision, recall, and F1-score of 28%, 94%, and 43% respectively. In dermatology, GPT-4V had an overall top-1 and top-3 diagnostic accuracy of 6.2% and 21% respectively. There was a significant accuracy drop when predicting images of darker skin tones (p
Autores: Roxana Daneshjou, Y. Jiang, J. A. Omiye, C. Zakka, M. Moor, H. Gui, S. Alipour, S. S. Mousavi, J. H. Chen, P. Rajpurkar
Última atualização: 2024-04-18 00:00:00
Idioma: English
Fonte URL: https://www.medrxiv.org/content/10.1101/2024.04.12.24305744
Fonte PDF: https://www.medrxiv.org/content/10.1101/2024.04.12.24305744.full.pdf
Licença: https://creativecommons.org/licenses/by/4.0/
Alterações: Este resumo foi elaborado com a assistência da AI e pode conter imprecisões. Para obter informações exactas, consulte os documentos originais ligados aqui.
Obrigado ao medrxiv pela utilização da sua interoperabilidade de acesso aberto.