RetinaVLM: Transformando Avaliações de Saúde Ocular
Um novo modelo melhora as avaliações de doenças oculares e os encaminhamentos de pacientes.
― 10 min ler
Índice
- Como o RetinaVLM foi Desenvolvido
- Componentes Chave do RetinaVLM
- Treinamento Especializado para o RetinaVLM
- Desempenho do RetinaVLM em Comparação com Outros Modelos
- Correção e Qualidade dos Relatórios do RetinaVLM
- Eficácia em Encaminhamentos e Triagem de Pacientes
- Analisando a Detecção de Biomarcadores
- Conclusão e Direções Futuras
- Fonte original
- Ligações de referência
Os clínicos costumam passar muito tempo analisando imagens médicas relacionadas à saúde ocular, anotando o que veem para decidir sobre o cuidado dos pacientes. Existem novos modelos chamados modelos de visão-linguagem (VLMs) que podem ler essas imagens automaticamente e escrever relatórios. Esses modelos têm o poder de ajudar os médicos a trabalharem mais rápido e dar a mais pacientes acesso a um bom atendimento médico. Embora muita gente esteja animada com esses modelos, não está claro se eles podem ser úteis em situações da vida real.
Nesta pesquisa, descobrimos que os VLMs básicos não se saem tão bem quanto os oftalmologistas em tarefas importantes para pacientes com degeneração macular relacionada à idade (AMD). Para melhorar isso, primeiro entendemos quais habilidades são necessárias para tomar decisões baseadas em imagens em um ambiente clínico. Então, treinamos um novo modelo chamado RetinaVLM para desenvolver essas habilidades importantes. O RetinaVLM consegue escrever relatórios que são muito melhores do que os criados por outros VLMs médicos existentes na avaliação de doenças e referindo pacientes. Ele chega perto de igualar o desempenho de oftalmologistas iniciantes. Em um estudo com dois oftalmologistas experientes, os relatórios do RetinaVLM foram considerados quase tão precisos e completos quanto os escritos por médicos juniores.
Essas descobertas mostram que nosso método de treinamento pode ajudar VLMs gerais a se tornarem melhores em lidar com tarefas clínicas reais. O RetinaVLM é o primeiro VLM especializado para uso médico.
Como o RetinaVLM foi Desenvolvido
Usando uma abordagem de treinamento direcionada, ensinamos ao RetinaVLM as habilidades médicas importantes que a maioria dos VLMs básicos não tem. O RetinaVLM pode analisar imagens de tomografia de coerência óptica (OCT) e responder a perguntas em texto. Suas funções incluem analisar sinais-chave de AMD, o nível da doença e se um paciente precisa de encaminhamento para tratamento.
Imagens médicas são críticas na hora de tomar decisões sobre o diagnóstico e tratamento dos pacientes. Os médicos demoram muito tempo para anotar suas observações. Os VLMs podem ajudar interpretando imagens rapidamente e criando relatos detalhados. Até agora, a maioria dos VLMs médicos estava limitada a fornecer respostas fixas. No entanto, novos desenvolvimentos combinando grandes modelos de linguagem com processamento de imagens médicas levaram à criação de VLMs mais avançados que podem escrever relatórios abrangentes ou responder perguntas complexas.
Essa nova geração de modelos médicos é construída a partir de grandes quantidades de dados de treinamento coletados de livros médicos, artigos científicos ou postagens nas redes sociais de profissionais de saúde. Embora esses modelos tenham mostrado resultados impressionantes em testes médicos padronizados, ainda não está claro se podem ser úteis para campos médicos especializados. Apesar do tamanho, os dados de treinamento usados não se concentram nos desafios específicos que os médicos enfrentam em suas tarefas diárias.
Em nosso estudo, buscamos abordar essa lacuna desenvolvendo VLMs que tenham valor clínico no mundo real. Dividimos as tarefas clínicas nas habilidades necessárias e treinamos VLMs especificamente nessas áreas. Testamos esse método em oftalmologia, introduzindo o RetinaVLM.
O RetinaVLM foi treinado usando um currículo focado na gestão de AMD, que é a principal causa de perda de visão em adultos mais velhos. Ele pode analisar imagens de OCT e responder a vários tipos de instruções em texto. Realizamos experimentos minuciosos para avaliar as capacidades do RetinaVLM na avaliação de doenças, encaminhamentos de pacientes e análise de imagens médicas.
Componentes Chave do RetinaVLM
O RetinaVLM tem duas partes principais: uma unidade de processamento de imagem (o codificador de visão) que lê imagens de OCT, e uma unidade de processamento de linguagem (o grande modelo de linguagem) que lida com texto. O codificador de visão é baseado em trabalhos anteriores bem-sucedidos, conhecidos por seu bom desempenho com imagens de retina. Selecionamos o Llama 3 da Meta como o modelo de linguagem, que teve os melhores resultados disponíveis quando realizamos este estudo.
Apesar de seu treinamento robusto, sem mais instruções, esses modelos não têm o conhecimento específico necessário para analisar imagens de OCT e gerenciar AMD. Ambos os componentes foram pré-treinados usando grandes conjuntos de dados, e refinamos seu treinamento para atender às necessidades do nosso estudo.
Treinamento Especializado para o RetinaVLM
Criamos um plano de treinamento específico para ensinar ao RetinaVLM o conhecimento necessário para gerenciar AMD. Uma maneira simples de especializar VLMs, mantendo sua capacidade de responder de forma flexível a instruções em texto, é fornecer a eles imagens médicas e suas perguntas e respostas associadas. Infelizmente, não existem muitos conjuntos de dados de perguntas e respostas visuais (VQA) projetados para especialidades médicas como oftalmologia.
Com uma equipe de profissionais de cuidados oculares, identificamos habilidades vitais para gerenciar AMD de forma eficaz. Essas habilidades incluem identificar sinais de AMD em imagens de OCT, relacionar esses sinais ao estágio da doença e determinar o encaminhamento e tratamento apropriados necessários para o paciente. Então, desenvolvemos um plano de treinamento consistindo de milhares de imagens de OCT, junto com muitas perguntas e respostas visuais que treinaram gradualmente os VLMs nessas habilidades.
Dividimos nosso treinamento em duas partes. A primeira parte apresentou ao RetinaVLM a aparência da retina e os sinais de AMD vistos durante a imagem de OCT. Coletamos um grande número de relatórios relacionados a essas imagens. Os relatórios descreviam quais características eram visíveis nas imagens e incluíam informações de diagnóstico.
Em seguida, encarregamos um modelo de linguagem de criar pares de perguntas e respostas a partir desses relatórios. Esse processo nos permitiu produzir um grande conjunto de dados de perguntas e respostas. As perguntas focaram na presença ou ausência de marcadores específicos que indicam AMD.
Na segunda parte do treinamento, pretendíamos conectar os marcadores identificados ao estágio da doença e recomendar tratamento. Isso exigiu a criação de relatórios detalhados que iam além das anotações típicas. Uma equipe mais experiente de oftalmologistas criou esses relatórios, e novamente usamos um modelo independente para produzir pares de perguntas e respostas com base nesses insights.
O resultado foi dois conjuntos de perguntas e respostas criados para especializar VLMs com conhecimento sobre AMD.
Desempenho do RetinaVLM em Comparação com Outros Modelos
Avalíamos o desempenho de diferentes VLMs na geração de relatórios com base em imagens de OCT da retina e na determinação dos estágios da doença AMD. Comparamos o RetinaVLM com dois VLMs fundacionais existentes, Med-Flamingo e LLaVA-Med. Um total de 276 imagens de OCT foram analisadas por esses modelos, com seus relatórios comparados a avaliações de especialistas de médicos oftalmologistas juniores.
Nossas descobertas mostraram que até a versão inicial do RetinaVLM se saiu muito melhor do que os modelos gerais, que careciam de conhecimento específico em oftalmologia. O Med-Flamingo alcançou uma das menores pontuações, enquanto o RetinaVLM-Specialist teve uma pontuação significativamente mais alta. Ele chegou perto de igualar a precisão de médicos juniores.
Em nossos testes, percebemos que o mais avançado RetinaVLM-Specialist produziu relatórios válidos para todos os casos analisados, enquanto muitos relatórios dos modelos fundacionais eram incompletos ou estavam formatados incorretamente. Isso mostrou que o RetinaVLM não apenas poderia analisar as imagens de forma eficaz, mas também era capaz de produzir relatórios confiáveis.
Correção e Qualidade dos Relatórios do RetinaVLM
Em uma avaliação adicional, pedimos a oftalmologistas seniores que avaliassem a qualidade dos relatórios produzidos pelo RetinaVLM. Os médicos seniores revisaram uma seleção de relatórios do RetinaVLM, LLaVA-Med e médicos juniores. Eles avaliaram precisão, completude e quão concisos eram os relatórios.
Os resultados indicaram que os relatórios do RetinaVLM eram quase tão corretos e completos quanto os dos médicos juniores, mostrando as capacidades do modelo em entender e interpretar informações clínicas. No entanto, embora o RetinaVLM tenha fornecido relatórios de alta qualidade, às vezes incluía detalhes desnecessários, levando a pontuações de concisão um pouco mais baixas do que as dos médicos juniores.
Eficácia em Encaminhamentos e Triagem de Pacientes
A AMD está se tornando mais comum à medida que a população envelhece, e programas de triagem estão sendo implementados para ajudar a gerenciar essa questão. Em lugares como o Reino Unido, elementos como optometristas estão começando a interpretar imagens de OCT para identificar pacientes de alto risco.
Testamos a capacidade de vários VLMs para determinar a urgência dos encaminhamentos de pacientes para tratamento com base em diretrizes fornecidas. Nossas descobertas mostraram que tanto os modelos fundacionais quanto o RetinaVLM-Base tiveram um desempenho inferior em comparação com médicos oftalmologistas humanos quando se tratava de recomendar encaminhamentos urgentes.
O RetinaVLM-Specialist, no entanto, identificou com sucesso uma grande porcentagem de pacientes de alto risco que precisavam de tratamento imediato, enquanto também reduziu o número de encaminhamentos desnecessários em comparação com não-especialistas.
Biomarcadores
Analisando a Detecção deQueríamos garantir que os modelos pudessem identificar com precisão biomarcadores críticos vistos em imagens de OCT. Avaliamos como o RetinaVLM e outros modelos poderiam determinar a presença de dez biomarcadores importantes associados à AMD. As respostas foram comparadas com avaliações feitas por oftalmologistas juniores.
O RetinaVLM teve um desempenho notável, superando ambos os modelos fundacionais na detecção de indicadores-chave de AMD. Ele mostrou uma alta capacidade de identificar características severas da doença, demonstrando sua utilidade em ambientes clínicos.
Conclusão e Direções Futuras
Neste estudo, apresentamos o RetinaVLM, uma ferramenta especializada que pode ler imagens de OCT e criar relatórios textuais detalhados sobre AMD. Ele mostra promessa em fornecer avaliações precisas, recomendações e análises, alinhando-se de perto ao desempenho de médicos juniores.
Acreditamos que ainda há melhorias a serem feitas. Esforços futuros devem se concentrar em treinar o RetinaVLM com uma variedade maior de relatórios gerados por especialistas experientes. Isso poderia ajudá-lo a alcançar um desempenho ainda melhor em situações clínicas. Também vemos a necessidade de incorporar conhecimento de outras doenças oculares e técnicas de imagem para tornar o RetinaVLM ainda mais versátil.
Seguindo nosso método de treinamento personalizado, mostramos que é possível criar VLMs capazes de enfrentar desafios clínicos do mundo real, garantindo que forneçam valor tangível na área da saúde.
Título: Specialist vision-language models for clinical ophthalmology
Resumo: Clinicians spend a significant amount of time reviewing medical images and transcribing their findings regarding patient diagnosis, referral and treatment in text form. Vision-language models (VLMs), which automatically interpret images and summarize their findings as text, have enormous potential to alleviate clinical workloads and increase patient access to high-quality medical care. While foundational models have stirred considerable interest in the medical community, it is unclear whether their general capabilities translate to real-world clinical utility. In this work, we show that foundation VLMs markedly underperform compared to practicing ophthalmologists on specialist tasks crucial to the care of patients with age-related macular degeneration (AMD). To address this, we initially identified the essential capabilities required for image-based clinical decision-making, and then developed a curriculum to selectively train VLMs in these skills. The resulting model, RetinaVLM, can be instructed to write reports that significantly outperform those written by leading foundation medical VLMs in disease staging (F1 score of 0.63 vs. 0.11) and patient referral (0.67 vs. 0.39), and approaches the diagnostic performance of junior ophthalmologists (who achieve 0.77 and 0.78 on the respective tasks). Furthermore, in a reader study involving two senior ophthalmologists with up to 32 years of experience, RetinaVLM's reports were found to be similarly correct (78.6% vs. 82.1%) and complete (both 78.6%) as reports written by junior ophthalmologists with up to 10 years of experience. These results demonstrate that our curriculum-based approach provides a blueprint for specializing generalist foundation medical VLMs to handle real-world clinical tasks.
Autores: Robbie Holland, Thomas R. P. Taylor, Christopher Holmes, Sophie Riedl, Julia Mai, Maria Patsiamanidi, Dimitra Mitsopoulou, Paul Hager, Philip Müller, Hendrik P. N. Scholl, Hrvoje Bogunović, Ursula Schmidt-Erfurth, Daniel Rueckert, Sobha Sivaprasad, Andrew J. Lotery, Martin J. Menten
Última atualização: 2024-07-11 00:00:00
Idioma: English
Fonte URL: https://arxiv.org/abs/2407.08410
Fonte PDF: https://arxiv.org/pdf/2407.08410
Licença: https://creativecommons.org/licenses/by/4.0/
Alterações: Este resumo foi elaborado com a assistência da AI e pode conter imprecisões. Para obter informações exactas, consulte os documentos originais ligados aqui.
Obrigado ao arxiv pela utilização da sua interoperabilidade de acesso aberto.
Ligações de referência
- https://www.technologyreview.com/2023/04/19/1071789/openais-hunger-for-data-is-coming-back-to-bite-it/
- https://research.google/pubs/everyone-wants-to-do-the-model-work-not-the-data-work-data-cascades-in-high-stakes-ai/
- https://www.nytimes.com/2024/04/06/technology/tech-giants-harvest-data-artificial-intelligence.html
- https://github.com/fastscience-ai/MedFlamingo
- https://github.com/microsoft/LLaVA-Med
- https://github.com/RobbieHolland/SpecialistVLMs
- https://huggingface.co/RobbieHolland/RetinaVLM