Gerando Imagens Médicas Sintéticas com GANs
Esse estudo explora o uso de GANs pra criar imagens de MRI sintéticas.
― 6 min ler
Índice
A análise de imagens médicas ajuda os médicos a entenderem a saúde de um paciente sem precisar fazer procedimentos invasivos. Recentemente, o uso de modelos de aprendizado de máquina e aprendizado profundo ganhou popularidade nessa área porque analisar as imagens manualmente é demorado e exige muito esforço dos profissionais de saúde. Para esses modelos funcionarem de forma eficaz, eles precisam de muitos dados de treinamento. No entanto, na área da saúde, conseguir esses dados pode ser difícil devido a preocupações com privacidade e o longo processo de rotulação das imagens.
Embora existam alguns conjuntos de dados públicos de imagens médicas disponíveis, eles são geralmente bem menores do que os conjuntos usados em outras áreas. Por exemplo, um conjunto de dados bem conhecido chamado ImageNet contém mais de 14 milhões de imagens, enquanto um conjunto de dados médicos específico, RadImageNet, tem apenas 5 milhões de imagens. Essa diferença destaca a necessidade de novos métodos para coletar mais dados de treinamento.
Redes Geradoras Adversariais (GANs)
Uma abordagem promissora para gerar mais imagens médicas envolve o uso de Redes Geradoras Adversariais (GANs). Esses modelos podem criar imagens realistas, tornando-os valiosos para tarefas como segmentação e classificação de imagens. Trabalhos preliminares nessa área mostraram resultados encorajadores, especialmente para Imagens de Ressonância Magnética do Cérebro. No entanto, um desafio das GANs é que elas podem ser pesadas computacionalmente, levando a tempos de processamento mais longos. Isso se deve à forma como as GANs aprendem, envolvendo dois modelos: o Gerador, que cria novas imagens, e o Discriminador, que distingue entre imagens reais e falsas.
Uma descoberta importante de trabalhos anteriores sugeriu que o uso de ambientes de computação poderosos pode ajudar a acelerar o treinamento e melhorar a estabilidade.
Avaliando GANs
Outro ponto importante é que não existe uma forma perfeita de medir quão bem essas GANs funcionam. Embora algumas métricas tenham sido propostas, incluindo a Distância de Fréchet Inception (FID), essas medições podem não captar completamente a qualidade das imagens geradas. O score FID compara as imagens reais com as sintéticas, mas não considera quão variadas essas imagens são. Em alguns casos, imagens de maior resolução podem ter um score FID mais baixo, mesmo que faltem em diversidade.
Devido a esses desafios, reimplementamos um modelo GAN anterior chamado Deep Convolutional GAN (DCGAN) e também usamos uma versão melhorada chamada WGAN-GP. Nosso objetivo era gerar imagens de ressonância magnética do cérebro em um ambiente de computação maior e distribuído. Construímos ambos os modelos usando TensorFlow e utilizamos recursos de computação profissional para lidar com a carga de trabalho de forma eficaz.
Dados e Implementação
Fizemos uma avaliação completa dos nossos modelos usando dois conjuntos de dados conhecidos como BraTS 2020 e 2021. Nossa abordagem diferiu de trabalhos anteriores ao gerar imagens de 256×256 e alcançar um score FID notável, indicando que nossas imagens sintéticas estavam próximas das reais.
As DCGANS são frequentemente usadas na análise de imagens médicas porque conseguem criar imagens de alta qualidade. Elas usam um tipo específico de camada chamada convoluções com stride fracionário, que ajuda na geração de imagens realistas. Em nosso trabalho anterior, usamos uma estrutura diferente, mas agora alinhamos nossa arquitetura para usar TensorFlow enquanto ajustamos algumas funções de ativação para melhorar o desempenho.
Por outro lado, as WGANs oferecem uma maneira alternativa de treinar as GANs usando recorte de pesos e treinamento assíncrono, o que pode melhorar a qualidade da imagem e acelerar o tempo de treinamento. Nossas descobertas mostraram que ambos os modelos puderam gerar efetivamente imagens de ressonância magnética, embora a WGAN-GP enfrentasse alguns problemas ao lidar com conjuntos de dados maiores.
Resultados e Discussão
Em nossos experimentos, cada época de treinamento resultou em uma imagem de ressonância magnética do cérebro de 256×256. Avaliamos as imagens usando a métrica FID, aplicando dois conjuntos diferentes de dados de treinamento. Nossos resultados mostraram que os scores FID do DCGAN foram geralmente melhores do que os da WGAN-GP. Essa diferença provavelmente se deve às características dos conjuntos de dados usados para treinamento.
Quando comparamos nossos resultados com descobertas anteriores, observamos que conjuntos de imagens maiores tendem a gerar melhores scores FID, o que significa que mais imagens levam a imagens sintéticas de maior qualidade. Nossos modelos igualaram ou superaram o desempenho de outros, indicando que ambientes de computação distribuídos poderiam gerar com sucesso dados de treinamento para várias aplicações em imagem médica.
Imagens geradas por nossos modelos mostraram menos detalhes do que as amostras originais. Dado que dois dos conjuntos que usamos eram focados em um tipo específico de contraste de ressonância magnética, mais experimentos com diferentes tipos de imagens são necessários para avaliar quão bem nossos modelos podem se adaptar.
Conclusões e Trabalho Futuro
A geração de imagens médicas sintéticas está se tornando uma ferramenta eficaz para lidar com o desafio da limitação de dados. O uso de GANs surgiu como um método líder para criar imagens de alta qualidade para fins de treinamento. Como o treinamento desses modelos exige recursos computacionais substanciais, distribuir a carga de trabalho é essencial para aplicações práticas.
Neste estudo, conseguimos reimplementar GANs em um ambiente distribuído para gerar imagens de ressonância magnética do cérebro. No entanto, medir a qualidade dessas imagens sintéticas continua sendo complexo, já que várias métricas avaliam diferentes aspectos dos resultados. Nossa avaliação usando scores FID indicou que nossas imagens geradas eram comparáveis às relatadas em outros estudos.
É evidente que usar conjuntos de dados maiores pode melhorar o desempenho do modelo, já que nossos testes mostraram scores FID melhores com conjuntos de imagens maiores. Apesar dos desafios associados ao uso da métrica FID para imagem médica, encontramos fortes evidências que apoiam seu uso com pesos de RadImageNet para medir a qualidade da imagem.
Pesquisas futuras vão se concentrar em ampliar nossos testes para configurações distribuídas maiores e realizar mais experimentos para ajustar os modelos. Ao refinar os hiperparâmetros, nosso objetivo é melhorar ainda mais a qualidade das imagens sintéticas e entender melhor os desafios enfrentados pela WGAN-GP durante o treinamento.
Título: To FID or not to FID: Applying GANs for MRI Image Generation in HPC
Resumo: With the rapid growth of Deep Learning models and neural networks, the medical data available for training - which is already significantly less than other types of data - is becoming scarce. For that purpose, Generative Adversarial Networks (GANs) have received increased attention due to their ability to synthesize new realistic images. Our preliminary work shows promising results for brain MRI images; however, there is a need to distribute the workload, which can be supported by High-Performance Computing (HPC) environments. In this paper, we generate 256x256 MRI images of the brain in a distributed setting. We obtained an FIDRadImageNet of 10.67 for the DCGAN and 23.54 for the WGAN-GP, which are consistent with results reported in several works published in this scope. This allows us to conclude that distributing the GAN generation process is a viable option to overcome the computational constraints imposed by these models and, therefore, facilitate the generation of new data for training purposes.
Autores: Beatriz Cepa, Cláudia Brito, António Sousa
Última atualização: 2024-09-29 00:00:00
Idioma: English
Fonte URL: https://www.biorxiv.org/content/10.1101/2024.09.27.615343
Fonte PDF: https://www.biorxiv.org/content/10.1101/2024.09.27.615343.full.pdf
Licença: https://creativecommons.org/licenses/by-nc/4.0/
Alterações: Este resumo foi elaborado com a assistência da AI e pode conter imprecisões. Para obter informações exactas, consulte os documentos originais ligados aqui.
Obrigado ao biorxiv pela utilização da sua interoperabilidade de acesso aberto.