Simple Science

Ciência de ponta explicada de forma simples

# Informática# Visão computacional e reconhecimento de padrões

Avanços nas Técnicas de Correspondência de Imagens Retinais

Uma nova abordagem pra detectar pontos chave em imagens de retina usando conjuntos de dados limitados.

― 6 min ler


Avanço na CorrespondênciaAvanço na Correspondênciade Imagens de Retinade pontos-chave em imagens da retina.Técnicas inovadoras melhoram a detecção
Índice

A correspondência de imagens da retina é super importante pra monitorar doenças oculares e como elas mudam com o tempo. Mas, não tem muitos conjuntos de dados disponíveis que contenham pares de imagens com pontos-chave combinados, que são vitais pra treinar modelos avançados como transformers. A gente propôs um novo método que usa um modelo menor pra treinar um modelo maior, permitindo uma performance melhor mesmo quando não tem muita data.

Detecção e Correspondência de Pontos-Chave

Detecção de pontos-chave é um processo usado em visão computacional pra achar pontos únicos numa imagem. Esses pontos são como marcos que ajudam em várias aplicações, tipo reconhecer objetos, costurar imagens, ou rastrear posições. O objetivo é identificar pontos que são consistentes em diferentes imagens, tornando-os confiáveis pra correspondência. Algoritmos de detecção de pontos-chave tentam encontrar esses pontos com base em variações de cor ou brilho, garantindo que funcionem mesmo se a imagem é rotacionada ou muda de tamanho.

Ao longo dos anos, foram criados muitos métodos pra detectar pontos-chave. Esses métodos vão desde técnicas mais antigas, como o detector de cantos Harris e SIFT, até métodos mais novos baseados em aprendizado profundo, como SuperPoint. Esses algoritmos tentam localizar características significativas na imagem, oferecendo diferentes níveis de precisão e eficiência.

No campo das imagens de retina, diferentes técnicas de correspondência de pontos-chave surgiram. Alguns métodos, como o LoSAP, lidam com mudanças de intensidade. Outros, como GLAMpoints, usam aprendizado profundo pra melhorar a precisão da correspondência. Outro método adota uma abordagem mais abrangente modelando a forma e a pose do olho pra ajudar no registro.

Nossas Contribuições

Nosso trabalho apresenta várias contribuições. Primeiro, estamos fornecendo um conjunto de dados com anotações especificamente pra detectar pontos-chave em imagens de retina. Segundo, melhoramos um modelo já existente pra alcançar resultados melhores na detecção de pontos-chave. Por fim, exploramos um método de Destilação de Conhecimento Reversa, que permite que um modelo maior aprenda com um modelo menor quando não há dados suficientes pra treinamento.

Criando Nosso Conjunto de Dados

Pra treinar nosso modelo de forma eficaz, criamos um conjunto de dados com 261 imagens de retina. Essas imagens foram divididas em 208 pra treinamento e 61 pra validação. Cada imagem tinha pontos-chave marcados em interseções e bifurcações, com o total de pontos-chave variando de 18 a 86, com uma média de cerca de 43 pontos-chave. Nosso conjunto de dados inclui imagens de retina normais e aquelas usadas em outras tarefas de classificação.

O processo de anotação foi feito por uma equipe de estudantes, que levaram em média cinco minutos pra anotar uma única imagem. Desenvolvemos um script em Python pra ajudar eles durante esse processo.

Pra nosso estudo, também utilizamos o conjunto de dados FIRE, que consiste em 129 imagens de retina emparelhadas com base em sua sobreposição e deformação. Esse conjunto de dados forneceu benchmarks valiosos pra comparar o desempenho dos nossos métodos propostos.

O Método Proposto

SuperRetina é uma técnica avançada usada pra identificar pontos-chave em imagens de retina. Ela combina aprendizado supervisionado e não supervisionado pra trabalhar eficazmente com a quantidade limitada de dados rotulados. A arquitetura consiste em um codificador e dois decodificadores: um pra detectar pontos-chave e outro pra gerar descritores relacionados a esses pontos.

No nosso trabalho, fizemos mudanças na arquitetura do SuperRetina pra melhorar a performance. Exploramos abordagens baseadas em CNN e transformers.

SuperRetina Aprimorado com Kernels Grandes

Introduzimos uma técnica que envolve usar kernels de diferentes tamanhos no codificador do SuperRetina. Ao incorporar esses kernels maiores, nosso objetivo era capturar dependências de longo alcance que são cruciais pra correspondência de imagens de retina. Essa abordagem nos permitiu superar métodos anteriores na área.

SuperRetina Aprimorado com Swin UNETR

Com base nos resultados positivos do uso de kernels grandes, consideramos melhorar ainda mais o modelo integrando um codificador Baseado em Transformer. Transformers Swin se tornaram populares por lidar de forma eficaz com dados visuais complexos. Substituímos o codificador do SuperRetina pelo codificador do Swin UNETR, utilizando suas vantagens em capturar dependências de longo alcance.

Destilação de Conhecimento Reversa

Destilação de conhecimento reversa é um método onde um modelo menor orienta um maior durante o treinamento. Ao contrário dos métodos tradicionais onde um modelo maior ajuda um menor, usamos essa técnica pra aproveitar o conhecimento de um modelo Baseado em CNN menor como professor pra treinar um modelo maior baseado em transformer, conhecido como modelo aluno.

Duas perdas diferentes foram calculadas durante esse processo. Uma foi baseada nas previsões de saída do modelo aluno comparadas ao modelo professor, enquanto a outra focava nas representações de características de ambos os modelos. Essa abordagem dupla visava melhorar a performance do modelo maior, aprendendo com os pontos fortes do modelo menor.

Avaliação do Nosso Método

Evaluamos rigorosamente nosso método proposto contra várias técnicas de correspondência de imagens da retina. As métricas de avaliação incluíram taxas de falha e taxas de aceitação. Uma correspondência era considerada uma falha se houvesse menos de quatro correspondências entre uma imagem de consulta e sua referência. As taxas de aceitação foram calculadas com base nas distâncias entre os pontos-chave correspondentes.

Nosso método proposto consistently superou os outros em vários cenários, confirmando a eficácia da nossa abordagem.

Estudos de Ablação

Pra entender melhor como diferentes modificações impactaram a performance, realizamos vários estudos de ablação. Variando os tamanhos dos kernels no nosso modelo, encontramos combinações específicas que renderam os melhores resultados. Também exploramos o impacto de usar aprendizado por transferência, onde treinamos o modelo Swin UNETR em conjuntos de dados maiores antes de usá-lo como base pra arquitetura do SuperRetina.

Os resultados destacaram a eficácia da destilação de conhecimento reversa, especialmente quando combinada com técnicas de regularização como dropout. Essa combinação melhorou a capacidade do modelo de generalizar pra novos dados, abrindo caminho pra uma melhor performance de detecção.

Conclusão

Esse trabalho tem como objetivo melhorar a correspondência de imagens da retina através de uma nova estrutura. Ao aprimorar o modelo SuperRetina e examinar a performance relativa de CNNs e transformers de visão, conseguimos resultados significativos. As alterações feitas na arquitetura do SuperRetina nos permitiram capturar pontos-chave precisos sem precisar de dependências de longo alcance.

Além disso, o método de destilação de conhecimento reversa mostrou seu potencial de guiar modelos maiores usando menores, levando a melhorias na performance, mesmo com dados limitados. Nossas contribuições também se estendem à comunidade de pesquisa através da disponibilização de um conjunto de dados público com anotações de detecção de pontos-chave, que vai apoiar avanços futuros em aplicações de imagem da retina.

Fonte original

Título: Reverse Knowledge Distillation: Training a Large Model using a Small One for Retinal Image Matching on Limited Data

Resumo: Retinal image matching plays a crucial role in monitoring disease progression and treatment response. However, datasets with matched keypoints between temporally separated pairs of images are not available in abundance to train transformer-based model. We propose a novel approach based on reverse knowledge distillation to train large models with limited data while preventing overfitting. Firstly, we propose architectural modifications to a CNN-based semi-supervised method called SuperRetina that help us improve its results on a publicly available dataset. Then, we train a computationally heavier model based on a vision transformer encoder using the lighter CNN-based model, which is counter-intuitive in the field knowledge-distillation research where training lighter models based on heavier ones is the norm. Surprisingly, such reverse knowledge distillation improves generalization even further. Our experiments suggest that high-dimensional fitting in representation space may prevent overfitting unlike training directly to match the final output. We also provide a public dataset with annotations for retinal image keypoint detection and matching to help the research community develop algorithms for retinal image applications.

Autores: Sahar Almahfouz Nasser, Nihar Gupte, Amit Sethi

Última atualização: 2023-07-21 00:00:00

Idioma: English

Fonte URL: https://arxiv.org/abs/2307.10698

Fonte PDF: https://arxiv.org/pdf/2307.10698

Licença: https://creativecommons.org/licenses/by/4.0/

Alterações: Este resumo foi elaborado com a assistência da AI e pode conter imprecisões. Para obter informações exactas, consulte os documentos originais ligados aqui.

Obrigado ao arxiv pela utilização da sua interoperabilidade de acesso aberto.

Mais de autores

Artigos semelhantes