Simple Science

Ciência de ponta explicada de forma simples

# Informática# Visão computacional e reconhecimento de padrões# Inteligência Artificial

Merlin: Uma Nova Abordagem para Interpretação de Tomografia Abdominal

O modelo de IA Merlin melhora a leitura de exames de tomografia abdominal.

― 8 min ler


Merlin Transforma aMerlin Transforma aAnálise de TomografiaComputadorizadatomografia computadorizada.interpretar dados complexos deA IA ajuda os radiologistas a
Índice

Todos os anos, milhões de exames de tomografia computadorizada (TC) são realizados, muitos focando na região do abdômen. A demanda por médicos que conseguem ler esses exames é alta, mas não tem radiologistas suficientes para acompanhar a carga de trabalho. Como solução, a Inteligência Artificial (IA) tá sendo usada pra ajudar a interpretar esses exames e encontrar indicadores de saúde importantes que podem passar despercebidos. Métodos tradicionais de IA costumam trabalhar com imagens planas, 2D e não utilizam dados detalhados dos pacientes que vêm dos prontuários eletrônicos (EHRs). Pra resolver essas limitações especificamente pra exames de TC abdominal, um novo modelo chamado Merlin foi criado. O Merlin consegue lidar tanto com a natureza 3D das imagens de TC quanto com o texto não estruturado encontrado em laudos de radiologia e dados de EHR.

A Necessidade de Melhores Soluções em Radiologia

Os exames de TC são um tipo comum de imagem médica que ajuda os médicos a ver dentro do corpo. Só nos Estados Unidos, mais de 85 milhões de exames de TC são feitos todo ano, com muitos focando na área abdominal. Esses exames costumam conter centenas de fatias, tornando difícil para os radiologistas interpretá-los rapidamente. Em média, leva cerca de 20 minutos pra ler um único exame. Além disso, pesquisas mostraram que os exames de TC podem conter sinais precoces de doenças que muitas vezes passam despercebidos.

Apesar do aumento do uso de imagens médicas, o número de radiologistas não tá acompanhando. O número de vagas de residência em radiologia continua o mesmo ao longo dos anos. Esse desbalanceamento tá levando a uma falta de radiologistas, com previsões indicando que até 2036, a falta pode ultrapassar 19 mil vagas.

O aprendizado de máquina (ML) surgiu como uma ferramenta promissora pra ajudar a ler imagens médicas. Muitos dispositivos de ML já foram aprovados pra uso em radiologia, mas a maioria dos modelos atualmente opera usando imagens 2D e falta uma abordagem abrangente que inclua dados de EHR. A produção de rótulos pra treinar esses modelos normalmente precisa de especialistas médicos, o que pode ser caro e demorado.

O Advento dos Modelos de visão-linguagem

Nos últimos anos, os modelos de visão-linguagem (VLMs) mostraram grande potencial em melhorar como a IA interage com imagens e textos. Esses modelos alinham informações visuais com descrições textuais, permitindo que eles entendam e processem dados de forma mais eficaz. Diferente dos métodos tradicionais, os VLMs conseguem utilizar grandes conjuntos de imagens e textos correspondentes da internet, tornando-os mais adaptáveis e menos dependentes de conjuntos de dados rigorosamente selecionados.

Enquanto os VLMs estão avançando no campo da radiologia, eles têm focado principalmente em imagens 2D, apesar da maioria das imagens médicas ser 3D. Os métodos atuais muitas vezes envolvem analisar cada fatia 2D de um volume 3D separadamente, que não é a forma mais eficiente de interpretar dados volumétricos abrangentes.

O que é o Merlin?

O Merlin é um novo modelo de visão-linguagem 3D especificamente projetado pra interpretar exames de TC abdominal. Ele utiliza tanto dados estruturados dos Prontuários Eletrônicos de Saúde quanto texto não estruturado dos laudos de radiologia. Essa abordagem permite que o modelo aprenda a partir de uma gama mais ampla de informações sem precisar de etiquetagem manual adicional de dados.

O treinamento do Merlin foi realizado em um grande conjunto de dados clínicos que incluía milhões de imagens, códigos de diagnóstico e tokens de laudos de radiologia. Aproveitando esse conjunto de dados diverso, o Merlin foi desenvolvido pra lidar com várias tarefas, como classificar achados em exames, gerar laudos de radiologia e até prever a probabilidade de doenças crônicas nos pacientes.

Treinamento e Avaliação do Merlin

O Merlin foi treinado com foco em exames de TC 3D, usando um conjunto de dados de alta qualidade que consistia em imagens pareadas e informações clínicas. O modelo é avaliado em vários tipos de tarefas pra demonstrar sua eficácia.

Essas tarefas incluem:

  1. Classificação de achados em zero-shot: O modelo consegue identificar corretamente achados específicos em imagens de TC sem treinamento prévio sobre aquelas condições específicas?
  2. Classificação de fenótipos: O modelo pode prever condições de saúde específicas com base nas imagens de TC?
  3. Recuperação cruzada modal: O modelo consegue combinar imagens de TC com seus respectivos laudos de radiologia ou vice-versa?
  4. Previsão de doenças em 5 anos: Quão bem o modelo pode prever se um paciente desenvolverá uma doença crônica nos próximos cinco anos com base em seus exames?
  5. Geração de laudos de radiologia: O modelo consegue criar laudos precisos com base nas imagens de TC?
  6. Segmentação Semântica 3D: O modelo consegue segmentar efetivamente diferentes estruturas anatômicas dentro de uma imagem de TC 3D?

Pra cada uma dessas tarefas, o desempenho do Merlin foi comparado com modelos existentes. Ele mostrou resultados superiores ou comparáveis em geral, demonstrando sua versatilidade e eficiência.

Insights do Desempenho do Merlin

Classificação de Achados em Zero-shot

Essa tarefa testa a habilidade do Merlin em identificar a presença de certas condições médicas a partir de imagens de TC baseando-se apenas em prompts de texto. Nas avaliações, o Merlin alcançou pontuações impressionantes, indicando que conseguia reconhecer muitos achados abdominais comuns de forma eficaz, como derrame pleural ou ascite. Porém, também mostrou que achados mais sutis, como linfadenopatia ou doença metastática, eram mais difíceis de classificar com precisão.

Classificação de Fenótipos

O Merlin também foi testado em sua capacidade de prever condições de saúde mais amplas com base em exames de TC. Ele classificou com sucesso uma gama de condições, alcançando métricas de desempenho fortes. Os achados sugerem que o Merlin é capaz de identificar várias questões de saúde com uma precisão razoável, tornando-se uma ferramenta útil no diagnóstico de pacientes.

Recuperação Cruzada Modal

No que diz respeito a combinar imagens com laudos, o Merlin se saiu bem, mostrando sua capacidade de vincular imagens de TC com informações textuais relevantes de forma eficiente. Essa tarefa é crucial, pois pode ajudar profissionais de saúde a localizar rapidamente os achados pertinentes sem precisar vasculhar laudos longos.

Prevendo Doenças Crônicas

O Merlin foi avaliado pra ver se conseguia prever se os pacientes desenvolveriam doenças crônicas dentro de cinco anos. Ele obteve resultados desejáveis, mesmo com dados de treinamento limitados. Essa capacidade é significativa, pois a detecção precoce de doenças pode levar a melhores resultados de tratamento para os pacientes.

Geração de Laudos de Radiologia

Durante as avaliações, o Merlin também teve a tarefa de gerar laudos de radiologia a partir de imagens de TC. Os resultados mostraram que, embora os laudos gerados fossem estruturalmente sólidos, houve casos em que achados positivos foram sub-relatados. Esse aspecto apresenta uma oportunidade pra melhorias futuras, mas ilustra a capacidade do Merlin de redigir laudos que podem ajudar os radiologistas.

Segmentação Semântica 3D

Por último, o Merlin foi avaliado em sua capacidade de segmentar estruturas anatômicas a partir de imagens de TC. Ele superou modelos alternativos, especialmente na identificação de órgãos menores ou formas mais complexas. Esse desempenho indica seu potencial uso em ajudar radiologistas a visualizar e entender detalhes anatômicos de forma mais eficaz.

Importância da Qualidade e Quantidade dos Dados

Uma das descobertas críticas do treinamento e avaliação do Merlin é que conjuntos de dados maiores podem levar a um melhor desempenho do modelo. Isso enfatiza a necessidade de conjuntos de dados robustos no treinamento de IA. Esforços pra aumentar tanto a qualidade quanto a quantidade dos dados de treinamento podem melhorar significativamente o desempenho de modelos como o Merlin.

Direções Futuras para Melhoria

Enquanto o Merlin mostra grande promessa, há várias áreas onde ele pode ser aprimorado ainda mais:

  1. Conjuntos de Dados Maiores: Esforços futuros de treinamento poderiam se beneficiar de conjuntos de dados maiores pra maximizar o desempenho e a adaptabilidade do modelo.
  2. Imagens de Maior Resolução: Usar melhores resoluções de imagem pode melhorar a capacidade do modelo de identificar indicadores sutis de saúde nos exames.
  3. Otimização de Tamanhos de Lote: Ajustar os tamanhos de lote durante o treinamento pode levar a um melhor desempenho, especialmente em modelos que lidam com dados complexos como imagens 3D.
  4. Cobertura Anatômica Mais Ampla: Treinar modelos em regiões anatômicas adicionais ou outras modalidades de imagem poderia melhorar sua utilidade em toda a área médica.

Conclusão

O Merlin representa um avanço significativo no uso de IA pra interpretar exames de TC abdominal. Ao aproveitar tanto dados estruturados de EHR quanto laudos não estruturados de radiologia, ele oferece uma abordagem abrangente que melhora a eficiência e precisão da interpretação de imagens. Com melhorias e adaptações contínuas, o Merlin pode desempenhar um papel crítico em aliviar a carga dos radiologistas e melhorar o atendimento ao paciente por meio da detecção precoce de doenças e suporte diagnóstico preciso.

Fonte original

Título: Merlin: A Vision Language Foundation Model for 3D Computed Tomography

Resumo: Over 85 million computed tomography (CT) scans are performed annually in the US, of which approximately one quarter focus on the abdomen. Given the current radiologist shortage, there is a large impetus to use artificial intelligence to alleviate the burden of interpreting these complex imaging studies. Prior state-of-the-art approaches for automated medical image interpretation leverage vision language models (VLMs). However, current medical VLMs are generally limited to 2D images and short reports, and do not leverage electronic health record (EHR) data for supervision. We introduce Merlin - a 3D VLM that we train using paired CT scans (6+ million images from 15,331 CTs), EHR diagnosis codes (1.8+ million codes), and radiology reports (6+ million tokens). We evaluate Merlin on 6 task types and 752 individual tasks. The non-adapted (off-the-shelf) tasks include zero-shot findings classification (31 findings), phenotype classification (692 phenotypes), and zero-shot cross-modal retrieval (image to findings and image to impressions), while model adapted tasks include 5-year disease prediction (6 diseases), radiology report generation, and 3D semantic segmentation (20 organs). We perform internal validation on a test set of 5,137 CTs, and external validation on 7,000 clinical CTs and on two public CT datasets (VerSe, TotalSegmentator). Beyond these clinically-relevant evaluations, we assess the efficacy of various network architectures and training strategies to depict that Merlin has favorable performance to existing task-specific baselines. We derive data scaling laws to empirically assess training data needs for requisite downstream task performance. Furthermore, unlike conventional VLMs that require hundreds of GPUs for training, we perform all training on a single GPU.

Autores: Louis Blankemeier, Joseph Paul Cohen, Ashwin Kumar, Dave Van Veen, Syed Jamal Safdar Gardezi, Magdalini Paschali, Zhihong Chen, Jean-Benoit Delbrouck, Eduardo Reis, Cesar Truyts, Christian Bluethgen, Malte Engmann Kjeldskov Jensen, Sophie Ostmeier, Maya Varma, Jeya Maria Jose Valanarasu, Zhongnan Fang, Zepeng Huo, Zaid Nabulsi, Diego Ardila, Wei-Hung Weng, Edson Amaro Junior, Neera Ahuja, Jason Fries, Nigam H. Shah, Andrew Johnston, Robert D. Boutin, Andrew Wentland, Curtis P. Langlotz, Jason Hom, Sergios Gatidis, Akshay S. Chaudhari

Última atualização: 2024-06-10 00:00:00

Idioma: English

Fonte URL: https://arxiv.org/abs/2406.06512

Fonte PDF: https://arxiv.org/pdf/2406.06512

Licença: https://creativecommons.org/licenses/by/4.0/

Alterações: Este resumo foi elaborado com a assistência da AI e pode conter imprecisões. Para obter informações exactas, consulte os documentos originais ligados aqui.

Obrigado ao arxiv pela utilização da sua interoperabilidade de acesso aberto.

Mais de autores

Artigos semelhantes