Simple Science

Ciência de ponta explicada de forma simples

# Ciências da saúde# Oftalmologia

Avaliando o GPT-4V em Imagens de Cuidados Oculares

Um estudo avalia a eficácia do GPT-4V na análise de imagens de olhos.

― 6 min ler


O Papel do GPT-4V naO Papel do GPT-4V naImagem Ocularimagens de saúde ocular.Avaliando a precisão da IA em analisar
Índice

A inteligência artificial (IA) tá mudando várias áreas, inclusive a medicina. Um desenvolvimento maneiro são os modelos de linguagem grande (LLMs), que conseguem entender e gerar texto. Na área médica, principalmente em cuidados com os olhos, esses modelos podem ajudar em tarefas que envolvem Imagens e texto, mas ainda tem uns desafios.

O Papel da Imagem no Cuidado dos Olhos

Cuidado dos olhos, conhecido como oftalmologia, depende de várias técnicas de imagem pra diagnosticar e tratar condições. Os médicos usam imagens de diferentes métodos como:

  • Imagens de lâmpada de fenda: pra olhar de perto a parte da frente do olho.
  • Oftalmoscopia a laser de varredura (SLO): pra ver detalhes da retina.
  • Fotografia de fundo de olho: pra capturar imagens da superfície interna do olho.
  • Tomografia de coerência óptica (OCT): pra imagens em cortes da retina.
  • Angiografia por fluoresceína do fundo de olho (FFA): pra examinar o fluxo sanguíneo na retina.
  • Ultrassom ocular (OUS): pra ver estruturas internas do olho.

Essas imagens ajudam os médicos a fazer Diagnósticos precisos e decidir os melhores tratamentos.

Uso Atual dos LLMs em Cuidados Oculares

Recentemente, os LLMs têm sido usados principalmente pra responder perguntas em formato de texto na área de oftalmologia. Por exemplo, eles ajudam a se preparar pra exames especializados respondendo dúvidas sobre doenças oculares e tratamentos cirúrgicos. Mas esses modelos têm limitações na hora de analisar imagens.

A Introdução do GPT-4V

Um novo modelo, o GPT-4V(ision), foi introduzido pra lidar com essas limitações. Esse modelo consegue trabalhar tanto com imagens quanto com texto. Essa habilidade permite uma função chamada de perguntas e respostas visuais (VQA), onde o modelo responde perguntas com base em imagens. Isso pode fornecer informações valiosas tanto pra médicos quanto pra pacientes.

Apesar do potencial, o GPT-4V não foi testado a fundo na área de cuidados óticos. Então, não dá pra saber se ele consegue analisar imagens relacionadas a condições oculares de maneira eficaz.

O Objetivo do Estudo

Esse estudo tem como objetivo testar o quanto um chatbot baseado no GPT-4V consegue responder a perguntas sobre imagens oculares. Pra garantir uma avaliação justa, os pesquisadores coletaram um conjunto de dados privado com imagens de vários centros oculares na China. Esse conjunto inclui uma variedade de imagens de olhos representando diferentes condições.

Processo de Coleta de Imagens

Os pesquisadores selecionaram com cuidado imagens que mostravam sinais claros de condições oculares específicas. Eles excluíram imagens com diagnósticos confusos ou duvidosos. Dois médicos oftalmologistas experientes revisaram as imagens selecionadas pra confirmar a clareza e a confiabilidade delas.

Desenvolvimento do App Usando GPT-4V

Os pesquisadores perceberam que o GPT-4V às vezes hesitava em dar diagnósticos quando recebia apenas imagens dos olhos. Pra melhorar as respostas, eles criaram um aplicativo digital que permite ao modelo analisar essas imagens de forma mais eficaz.

Como As Respostas Foram Geradas

Pra avaliar o GPT-4V, os pesquisadores criaram dez perguntas específicas baseadas em estudos anteriores e na experiência clínica. Essas perguntas visam avaliar o desempenho do modelo em várias áreas, incluindo:

  1. Identificar o tipo de exame.
  2. Reconhecer lesões ou anomalias.
  3. Avaliar sua capacidade de fazer um diagnóstico.
  4. Fornecer suporte de decisão para ações futuras.

Os pesquisadores apresentaram as imagens oculares coletadas ao GPT-4V em um curto período.

Processo de Avaliação Humana

Três médicos oftalmologistas experientes avaliaram as respostas do GPT-4V. Eles olharam pra três aspectos principais:

  1. Precisão: As respostas estavam corretas?
  2. Usabilidade: As respostas eram relevantes e úteis?
  3. Segurança: As respostas apresentavam riscos pros pacientes?

Eles classificaram a precisão numa escala de três pontos, indicando se a informação estava correta, parcialmente correta ou incorreta.

A usabilidade também foi avaliada com base em quão úteis eram as respostas, variando de altamente utilizáveis a pouco utilizáveis. As avaliações de segurança focaram em qualquer dano potencial que pudesse vir do conselho dado.

Desempenho Geral do GPT-4V

O estudo mostrou que o GPT-4V teve boa precisão e usabilidade na interpretação de alguns tipos de imagens oculares, especialmente imagens de lâmpada de fenda. Mas o desempenho variou bastante com outros tipos de imagens. Por exemplo, as respostas pra fotografia de fundo de olho eram geralmente menos precisas e úteis.

Apesar de algumas avaliações positivas, muitas respostas foram ou incorretas ou não muito utilizáveis. A capacidade do modelo de interpretar imagens era limitada, e as descrições muitas vezes eram vagas ou genéricas, o que não ajuda médicos ou pacientes.

Repetibilidade das Respostas

Os pesquisadores também analisaram quão consistentes eram as respostas do GPT-4V quando perguntadas novamente as mesmas perguntas. A concordância geral foi relativamente baixa, indicando que o modelo tem dificuldade em fornecer respostas estáveis e confiáveis.

Comparando GPT-4V com Respostas Humanas

Os pesquisadores compararam as respostas do GPT-4V com as dadas por médicos humanos. Eles perceberam que as respostas do modelo geralmente não tinham a profundidade e a especificidade que os especialistas humanos oferecem. A semelhança na estrutura das frases era moderada, mas o modelo frequentemente usava frases genéricas que poderiam se aplicar a qualquer condição ocular.

Conclusão

Embora o GPT-4V seja um avanço no uso de IA pra analisar imagens em cuidados oculares, ele ainda não tá pronto pra uso clínico no dia a dia. A capacidade de diagnosticar e apoiar decisões clínicas com base em imagens oculares precisa de muita melhoria. Mais pesquisas são necessárias pra aprimorar esses modelos antes que eles possam ser confiáveis em ambientes médicos.

Os achados desse estudo servem como uma base pra futuros esforços de melhorar modelos de IA na oftalmologia. No geral, apesar do potencial de usar IA, mais desenvolvimento é necessário pra garantir segurança e eficácia no cuidado do paciente.

Limitações

Tem limitações nesse estudo. Primeiro, o número pequeno de imagens usadas pode ter afetado a confiabilidade dos resultados. Um conjunto de dados maior e mais variado daria uma melhor representação do que os médicos veem na prática do dia a dia. Além disso, os pesquisadores não investigaram se o GPT-4V poderia corrigir seus erros quando solicitado de novo, o que pode ser uma área importante pra futuras pesquisas.

Em conclusão, o GPT-4V mostra promessas, mas precisa de mais trabalho pra ser eficaz em ajudar nos cuidados oculares. Testes e melhorias contínuas são cruciais pra tornar ferramentas de IA utilizáveis em situações médicas reais.

Fonte original

Título: Unveiling the Clinical Incapabilities: A Benchmarking Study of GPT-4V(ision) for Ophthalmic Multimodal Image Analysis

Resumo: PurposeTo evaluate the capabilities and incapabilities of a GPT-4V(ision)-based chatbot in interpreting ocular multimodal images. MethodsWe developed a digital ophthalmologist app using GPT-4V and evaluated its performance with a dataset (60 images, 60 ophthalmic conditions, 6 modalities) that included slit-lamp, scanning laser ophthalmoscopy (SLO), fundus photography of the posterior pole (FPP), optical coherence tomography (OCT), fundus fluorescein angiography (FFA), and ocular ultrasound (OUS) images. The chatbot was tested with ten open-ended questions per image, covering examination identification, lesion detection, diagnosis, and decision support. The responses were manually assessed for accuracy, usability, safety, and diagnosis repeatablity. Auto-evaluation was performed using sentence similarity and GPT-4-based auto-evaluation. ResultsOut of 600 responses, 30.6% were accurate, 21.5% were highly usable, and 55.6% were deemed as no harm. GPT-4V performed best with slit-lamp images, with 42.0%, 38.5%, and 68.5% of the responses being accurate, highly usable, and no harm, respectively. However, its performance was weaker in FPP images, with only 13.7%, 3.7%, and 38.5% in the same categories. GPT-4V correctly identified 95.6% of the imaging modalities and showed varying accuracy in lesion identification (25.6%), diagnosis (16.1%), and decision support (24.0%). The overall repeatability of GPT-4V in diagnosing ocular images was 63% (38/60). The overall sentence similarity between responses generated by GPT-4V and human answers is 55.5%, with Spearman correlations of 0.569 for accuracy and 0.576 for usability. ConclusionGPT-4V currently lacks the reliability needed for clinical decision-making in ophthalmology. Our study serve as a benchmark for enhancing ophthalmic multimodal models. SynopsisOnly 30.6%, 21.5%, and 55.6% responses about ocular multimodal images generated by GPT-4V(ision) were considered accurate, highly usable, no harm, respectively. Currently, GPT-4V lacks the reliability required for clinical decision-making and patient consultation in ophthalmology. O_LIWhat is already known on this topic: First, GPT-4V(ision) exhibited significant advantages in fine-grained world-knowledge-intensive visual question answering. Second, the performance of GPT-4V in the multimodal medical diagnosis domain had been evaluated through case analysis, involving 17 medical systems and 8 modalities used in clinical practice. However, ophthalmic-related images were not included in the study. C_LIO_LIWhat this study adds:Being the first known evaluation of GPT-4Vs capabilities in processing ophthalmic multimodal images, our study adds valuable insights to the existing body of knowledge. Our study highlight the incapabilities of GPT-4V, demonstrating that it currently lacks the essential reliability required for clinical decision-making and patient consultation in ophthalmology. C_LIO_LIHow this study might affect research, practice or policy: The evidence gathered in this study show that continued refinement and testing remain crucial for enhancing the effectiveness of large language models in medical applications. This work provides a benchmark for further investigation in building large language models for processing ophthalmic multimodal images. C_LI

Autores: Danli Shi, P. Xu, X. Chen, Z. Zhao

Última atualização: 2024-05-13 00:00:00

Idioma: English

Fonte URL: https://www.medrxiv.org/content/10.1101/2023.11.27.23299056

Fonte PDF: https://www.medrxiv.org/content/10.1101/2023.11.27.23299056.full.pdf

Licença: https://creativecommons.org/licenses/by/4.0/

Alterações: Este resumo foi elaborado com a assistência da AI e pode conter imprecisões. Para obter informações exactas, consulte os documentos originais ligados aqui.

Obrigado ao medrxiv pela utilização da sua interoperabilidade de acesso aberto.

Mais de autores

Artigos semelhantes