Melhorando o Controle de Qualidade na Segmentação de Imagens Médicas
Um novo método fornece faixas de desempenho para segmentação de imagens em aplicações médicas.
― 6 min ler
Índice
A segmentação de imagem é um processo chave na medicina, ajudando a identificar e isolar partes específicas das imagens, como vasos sanguíneos no olho. Isso é importante para diagnosticar condições como glaucoma e retinopatia diabética. Porém, segmentar essas imagens manualmente pode levar muito tempo - até cinco horas só para uma imagem. Para acelerar esse processo, os pesquisadores têm desenvolvido modelos de aprendizado de máquina que conseguem segmentar essas imagens automaticamente. Embora alguns desses modelos funcionem bem, eles também podem cometer erros. Por isso, é vital garantir a qualidade do que eles produzem.
Controle de Qualidade na Segmentação de Imagens
O controle de qualidade pode ser feito tanto nas imagens de entrada quanto nas saídas do modelo. O controle de qualidade das entradas busca identificar imagens que podem ser difíceis de segmentar. Métodos comuns incluem prever a qualidade da imagem ou detectar se ela está fora do alcance de treinamento do modelo. No entanto, esses métodos podem falhar às vezes. Uma imagem pode parecer boa, mas ainda ser difícil de segmentar, ou o contrário.
O controle de qualidade de saída foca em verificar a qualidade dos resultados do modelo diretamente. Uma estratégia comum é olhar para a incerteza da saída, que serve como um indicativo de qualidade. Porém, isso exige escolher um limite para determinar o que é considerado qualidade aceitável. Outros métodos foram desenvolvidos para estimar o desempenho esperado com base em dados não vistos, permitindo limites de desempenho mais claros, como buscar uma pontuação de precisão específica.
A Necessidade de Melhores Métodos
Desenvolvimentos recentes mostraram que é possível prever quão bem um modelo vai se sair usando apenas as Probabilidades de Saída. Essas probabilidades indicam quão provável é que cada pixel pertence a uma certa classe. Infelizmente, muitos modelos atuais não estão bem calibrados, o que significa que suas previsões podem não refletir a realidade com precisão. Isso pode dificultar a confiança nas estimativas de desempenho.
Para enfrentar esses problemas, desenvolvemos um método para prever faixas de possíveis níveis de desempenho em vez de fornecer uma única estimativa. Assim, conseguimos garantir que o verdadeiro desempenho fica dentro da faixa prevista na maioria das vezes. Nosso método usa estimativa de incerteza do processo de segmentação e aplica uma técnica chamada previsão conformal dividida para converter essas estimativas em intervalos de desempenho confiáveis.
Nossa Abordagem
Nós testamos nosso método em um conjunto de dados que foca na segmentação de vasos retinais em imagens oculares. Nosso objetivo era prever não apenas uma segmentação, mas também seu desempenho esperado e uma faixa que pudéssemos ter confiança que conteria o nível de desempenho real.
Primeiro, exploramos como estimar uma pontuação de desempenho a partir da saída do modelo. Em condições ideais, conseguimos derivar o número esperado de verdadeiros positivos e falsos negativos a partir das previsões do modelo. No entanto, modelos reais frequentemente têm problemas de calibração, levando a estimativas imprecisas. Em vez de confiar nessas previsões potencialmente falhas, buscamos oferecer faixas que capturem o desempenho verdadeiro de forma mais confiável.
Para isso, começamos a coletar amostras de diferentes técnicas de segmentação probabilística. Essas amostras nos dão uma melhor compreensão da distribuição de desempenho. A partir dessas amostras, calculamos um desvio padrão, o que nos ajudou a definir limites superiores e inferiores de desempenho para cada imagem de entrada.
Comparamos vários métodos probabilísticos para ver como eles se saíam na estimativa desses limites. Os métodos incluíram U-Net probabilístico, PHiSeg, aumento de teste, conjuntos de modelos e Monte Carlo Dropout. Cada método oferece uma forma diferente de gerar amostras de segmentação e avaliar incertezas.
Assim que coletamos as amostras, aplicamos o método de previsão conformal dividida para ajustar nossas faixas de desempenho. Essa técnica ajuda a garantir que o verdadeiro nível de desempenho fique dentro da faixa prevista com uma probabilidade especificada.
Dados e Treinamento
Para avaliar nosso método, usamos um conjunto de dados com 800 imagens retinais, claramente rotuladas com segmentações manuais. As imagens foram divididas em conjuntos de treinamento, teste e calibração. Pré-processamos as imagens para melhorar sua aparência e focamos em identificar imagens de baixa qualidade que poderiam atrapalhar a segmentação.
Treinamos todos os nossos modelos em hardware poderoso para garantir que eles aprendessem de forma eficaz. A seleção do modelo foi baseada em quão bem eles se saíam no conjunto de validação.
Resultados
Começamos verificando o desempenho geral dos modelos de segmentação. A maioria dos modelos obteve altas pontuações de precisão, indicando que se saíram bem na tarefa. O PHiSeg se destacou como um dos métodos mais eficazes para prever o desempenho com precisão.
Em seguida, avaliamos a qualidade das faixas de desempenho geradas pelo nosso método. O principal objetivo era verificar se as pontuações de desempenho reais caíam dentro das nossas faixas previstas. Descobrimos que vários métodos alcançaram a cobertura desejada. No entanto, alguns métodos ficaram um pouco abaixo.
Também avaliamos o tamanho dos intervalos que produzimos. Intervalos menores são melhores, pois indicam uma estimativa mais precisa. Nossos melhores resultados vieram do PHiSeg, que forneceu as faixas mais compactas.
Além disso, investigamos como a qualidade das imagens de entrada afetava nossas previsões de desempenho. Imagens de baixa qualidade geralmente resultaram em faixas de previsão maiores, pois eram mais difíceis de segmentar. Nossas descobertas indicaram que as estimativas de desempenho para imagens de baixa qualidade tendiam a ser menos precisas, embora as faixas previstas frequentemente ainda contivessem as pontuações verdadeiras.
Discussão e Conclusão
Em resumo, demonstramos que apenas fornecer estimativas pontuais de desempenho não é suficiente para um controle de qualidade confiável na segmentação de imagens. Modelos de aprendizado de máquina muitas vezes enfrentam problemas de calibração e incerteza de desempenho, especialmente em imagens de baixa qualidade.
Nosso método proposto, que gera faixas de desempenho com garantias estatísticas, ajuda a enfrentar esses desafios. O PHiSeg foi o método de melhor desempenho em nossos testes, oferecendo previsões precisas e estimativas de faixas confiáveis.
Embora nossa abordagem tenha se mostrado eficaz, é importante notar que ela se baseia na suposição de que os conjuntos de teste e calibração são semelhantes. Pesquisas futuras buscarão expandir esse trabalho, investigando como adaptar nosso método para diferentes situações, especialmente ao lidar com imagens desconhecidas.
Em conclusão, nosso método representa um passo significativo em frente no controle de qualidade automatizado para segmentação de imagens, tornando-se uma ferramenta vital para aplicações de imagem médica.
Título: Conformal Performance Range Prediction for Segmentation Output Quality Control
Resumo: Recent works have introduced methods to estimate segmentation performance without ground truth, relying solely on neural network softmax outputs. These techniques hold potential for intuitive output quality control. However, such performance estimates rely on calibrated softmax outputs, which is often not the case in modern neural networks. Moreover, the estimates do not take into account inherent uncertainty in segmentation tasks. These limitations may render precise performance predictions unattainable, restricting the practical applicability of performance estimation methods. To address these challenges, we develop a novel approach for predicting performance ranges with statistical guarantees of containing the ground truth with a user specified probability. Our method leverages sampling-based segmentation uncertainty estimation to derive heuristic performance ranges, and applies split conformal prediction to transform these estimates into rigorous prediction ranges that meet the desired guarantees. We demonstrate our approach on the FIVES retinal vessel segmentation dataset and compare five commonly used sampling-based uncertainty estimation techniques. Our results show that it is possible to achieve the desired coverage with small prediction ranges, highlighting the potential of performance range prediction as a valuable tool for output quality control.
Autores: Anna M. Wundram, Paul Fischer, Michael Muehlebach, Lisa M. Koch, Christian F. Baumgartner
Última atualização: 2024-08-29 00:00:00
Idioma: English
Fonte URL: https://arxiv.org/abs/2407.13307
Fonte PDF: https://arxiv.org/pdf/2407.13307
Licença: https://creativecommons.org/licenses/by/4.0/
Alterações: Este resumo foi elaborado com a assistência da AI e pode conter imprecisões. Para obter informações exactas, consulte os documentos originais ligados aqui.
Obrigado ao arxiv pela utilização da sua interoperabilidade de acesso aberto.