Avaliando o SAM 2 para Segmentação de Imagens Médicas
O SAM 2 melhora a segmentação de imagens médicas para conjuntos de dados 2D e 3D.
― 7 min ler
Índice
- Coleta de Dados
- Metodologia
- Configurações de Avaliação
- Seleção de Quadro Inicial
- Direção de Propagação
- Simulação de Prompts
- Seleção de Previsões
- Segmentação Interativa
- Resultados
- Segmentação 2D de Quadro Único
- Segmentação 3D de Múltiplos Quadros
- Comparações com Outros Métodos
- Discussão
- Conclusão
- Fonte original
- Ligações de referência
A segmentação de imagens médicas é super importante pra diagnosticar doenças e analisar dados clínicos. Mesmo com os avanços nas tecnologias de imagem médica, segmentar essas imagens ainda é complicado. Essa dificuldade vem principalmente da necessidade de rotulação manual de dados e da complexidade das imagens médicas.
Uma nova ferramenta chamada Segment Anything Model (SAM) tá ajudando a enfrentar esses desafios. O SAM consegue segmentar diferentes objetos em imagens usando prompts, o que diminui bastante a necessidade de rotulação manual extensa. Já teve tentativas de melhorar o SAM pra tarefas específicas, mostrando um desempenho melhor do que os métodos tradicionais de segmentação. Mas, no começo, o SAM se focava em imagens 2D, o que limitava seu uso em situações que precisavam de entendimento 3D.
Recentemente, foi lançada uma nova versão chamada SAM 2. Essa nova versão consegue trabalhar com vídeos, abrindo oportunidades pra aplicá-la em imagens médicas 3D, que é uma tarefa essencial no campo de imagem médica. Este artigo analisa como o SAM 2 se sai quando solicitado a segmentar imagens médicas tanto 2D quanto 3D.
Coleta de Dados
No nosso estudo, coletamos 21 conjuntos de dados de imagem médica que incluem vários tipos de imagens. Isso inclui vídeos cirúrgicos, técnicas comuns de imagem 3D como tomografia computadorizada (CT), ressonância magnética (MRI) e tomografia por emissão de positrões (PET), assim como modalidades de imagem 2D como raio-X e ultrassom.
Testamos o SAM 2 de duas maneiras:
- A primeira maneira foi dando prompts para uma ou algumas fatias selecionadas de imagens 3D.
- A segunda maneira foi dando prompts para todas as fatias. O primeiro método se aplica só a vídeos e imagens 3D, enquanto o segundo método é adequado pra todos os conjuntos de dados.
Nossas descobertas sugerem que o SAM 2 se comporta de forma semelhante ao SAM original com imagens 2D de quadro único. No entanto, seu desempenho varia com imagens 3D, dependendo de fatores como quais fatias foram escolhidas pra anotação, como o modelo processa essas fatias e as previsões usadas no processo.
Metodologia
Pra avaliar a eficácia do SAM 2, dividimos nossa abordagem em várias partes:
Configurações de Avaliação
Nós avaliamos o SAM 2 usando duas configurações principais: segmentação 2D de quadro único e segmentação 3D de múltiplos quadros.
Segmentação 2D de Quadro Único: Nesse cenário, testamos como o SAM 2 conseguia segmentar imagens 2D individuais. Usamos quatro métodos diferentes de prompting durante essa avaliação, focando em quão eficazes eles foram em conseguir segmentações precisas.
Segmentação 3D de Múltiplos Quadros: Aqui, investigamos como o SAM 2 poderia lidar com imagens apresentadas em série, como um vídeo ou várias fatias de uma imagem 3D. Essa configuração nos permite ver como o modelo consegue prever segmentos além de apenas fatias diretamente anotadas.
Seleção de Quadro Inicial
Ao trabalhar com vídeos, geralmente um quadro inicial é escolhido pra dar um ponto de partida pra segmentação. Normalmente, o primeiro quadro é selecionado, mas isso pode não ser tão eficaz em imagens médicas 3D onde a primeira aparição de um objeto pode variar. Consideramos quatro estratégias diferentes pra escolher o quadro inicial:
- Selecionar a primeira fatia onde o objeto aparece.
- Escolher a fatia que mostra a parte mais proeminente do objeto.
- Selecionar a fatia com a maior área do objeto.
- Escolher três fatias de maneira uniforme ao longo do volume.
Direção de Propagação
Depois de escolher a fatia inicial, o próximo passo é propagar informações pra prever outras fatias. Exploramos duas metodologias pra isso:
- Propagação Direta: Aqui começamos a partir da fatia selecionada e seguimos pra frente pelo volume.
- Propagação Bidirecional: Essa estratégia começa da fatia anotada, trabalhando pra trás primeiro e depois pra frente.
Simulação de Prompts
Também consideramos como simular prompts quando os segmentos precisam ser identificados. Aplicamos vários modos de fornecer prompts, incluindo:
- Usar prompts pontuais em locais específicos do objeto.
- Usar prompts de caixa envolvendo o objeto.
- Alimentar máscaras de verdade como prompts.
Seleção de Previsões
Ao segmentar imagens médicas, muitas vezes é útil ter várias previsões potenciais pra cada objeto. O SAM 2 utiliza várias estratégias pra escolher qual previsão usar, como escolher a que parece mais confiante ou só pegar a primeira saída produzida.
Segmentação Interativa
A segmentação interativa envolve refinar previsões com base na entrada do usuário. Na nossa configuração, fornecemos dois cenários pra segmentação interativa:
- Avaliação Offline: Os usuários podem revisar segmentos várias vezes antes de fazer correções.
- Avaliação Online: Os usuários tomam decisões em tempo real enquanto o vídeo toca.
Resultados
Segmentação 2D de Quadro Único
Na nossa avaliação do desempenho de segmentação de quadro único do SAM 2, os resultados indicaram que o SAM 2 é em grande parte comparável ao seu predecessor, embora haja variações de conjunto de dados pra conjunto de dados. Por exemplo, o modelo se saiu bem nos conjuntos de dados de raio-X, mas teve dificuldades com os de MRI.
Descobrimos que os prompts de caixa geralmente levaram a um desempenho melhor do que os prompts pontuais. Curiosamente, simplesmente adicionar mais prompts pontuais não melhorou sempre a precisão. Em muitos conjuntos de dados médicos, os objetos alvos geralmente estão conectados, então prompts adicionais podem às vezes causar confusão em vez de clareza.
Segmentação 3D de Múltiplos Quadros
Ao analisar o desempenho 3D do SAM 2, notamos diferenças significativas dependendo de como configuramos nossos experimentos. O desempenho médio mostrou que a propagação bidirecional superou consistentemente a propagação direta. Essa melhoria foi especialmente clara quando fatias com objetos proeminentes foram selecionadas.
As estratégias pra selecionar quais previsões confiar também influenciaram os resultados gerais. Em casos onde foram usados prompts pontuais, escolher a previsão inicial frequentemente proporcionou melhores resultados em comparação a confiar na opção mais confiante.
Comparações com Outros Métodos
O SAM 2 também foi comparado a outros modelos que se concentram em imagem médica 3D. No geral, ele mostrou desempenho superior aos modelos feitos especificamente pra tarefas 3D. A estrutura única de banco de memória do SAM 2 permitiu que ele aproveitasse previsões passadas de forma eficaz, o que contribuiu bastante pra sua precisão.
Discussão
Os resultados dos nossos experimentos com o SAM 2 revelam várias percepções chave:
Estratégia de Prompting: Fornecer prompts claros, especialmente prompts de caixa, tende a gerar resultados melhores do que prompts pontuais tanto em configurações 2D quanto 3D.
Seleção de Quadro Importa: A fatia inicial escolhida pra anotação pode afetar significativamente os resultados. Selecionar fatias com partes substanciais do objeto de interesse geralmente resulta em melhor desempenho.
Abordagens de Propagação: A propagação bidirecional é geralmente mais eficaz, especialmente em contextos de imagem 3D.
Interação Humana: A segmentação interativa pode melhorar os resultados de forma significativa, especialmente quando os usuários têm a flexibilidade de corrigir previsões com base no feedback visual.
Conclusão
Esse estudo explora as capacidades do Segment Anything Model 2 na segmentação de imagem médica. Testando-o com conjuntos de dados 2D e 3D, descobrimos que, enquanto o SAM 2 é significativamente mais avançado que seu predecessor, seu desempenho é muito influenciado pelos métodos de prompting, seleção de quadro inicial e abordagem de propagação.
As melhorias trazidas pelo SAM 2 oferecem um passo fundamental pra uma segmentação mais eficiente e eficaz em imagem médica, embora mais aprimoramentos e refinamentos possam ser necessários pra otimizar seu uso em cenários clínicos. Futuros esforços poderiam focar em melhorar as estratégias de memória utilizadas no SAM 2, refinando como o modelo entende e processa imagens médicas complexas.
No geral, o SAM 2 mostrou um grande potencial em simplificar o que tradicionalmente sempre foi um processo bem trabalhoso, trazendo esperança por uma segmentação melhor, mais rápida e mais precisa em imagem médica.
Título: Segment anything model 2: an application to 2D and 3D medical images
Resumo: Segment Anything Model (SAM) has gained significant attention because of its ability to segment various objects in images given a prompt. The recently developed SAM 2 has extended this ability to video inputs. This opens an opportunity to apply SAM to 3D images, one of the fundamental tasks in the medical imaging field. In this paper, we extensively evaluate SAM 2's ability to segment both 2D and 3D medical images by first collecting 21 medical imaging datasets, including surgical videos, common 3D modalities such as computed tomography (CT), magnetic resonance imaging (MRI), and positron emission tomography (PET) as well as 2D modalities such as X-ray and ultrasound. Two evaluation settings of SAM 2 are considered: (1) multi-frame 3D segmentation, where prompts are provided to one or multiple slice(s) selected from the volume, and (2) single-frame 2D segmentation, where prompts are provided to each slice. The former only applies to videos and 3D modalities, while the latter applies to all datasets. Our results show that SAM 2 exhibits similar performance as SAM under single-frame 2D segmentation, and has variable performance under multi-frame 3D segmentation depending on the choices of slices to annotate, the direction of the propagation, the predictions utilized during the propagation, etc. We believe our work enhances the understanding of SAM 2's behavior in the medical field and provides directions for future work in adapting SAM 2 to this domain. Our code is available at: https://github.com/mazurowski-lab/segment-anything2-medical-evaluation.
Autores: Haoyu Dong, Hanxue Gu, Yaqian Chen, Jichen Yang, Yuwen Chen, Maciej A. Mazurowski
Última atualização: 2024-08-22 00:00:00
Idioma: English
Fonte URL: https://arxiv.org/abs/2408.00756
Fonte PDF: https://arxiv.org/pdf/2408.00756
Licença: https://creativecommons.org/licenses/by/4.0/
Alterações: Este resumo foi elaborado com a assistência da AI e pode conter imprecisões. Para obter informações exactas, consulte os documentos originais ligados aqui.
Obrigado ao arxiv pela utilização da sua interoperabilidade de acesso aberto.