Simple Science

Ciência de ponta explicada de forma simples

# Informática# Visão computacional e reconhecimento de padrões

Melhorando a Recuperação de Imagens com Aprendizado de Métricas Profundas

Um novo método melhora a recuperação de imagens usando Ortogonalidade Suave e Transformadores de Visão.

― 8 min ler


Recuperação de ImagemRecuperação de ImagemAprimorada por NovasTécnicasimagens.eficiência na correspondência deNovos métodos melhoram a precisão e a
Índice

Deep Metric Learning (DML) é uma ferramenta usada em tarefas de visão computacional. Ela foca em como medir a similaridade entre imagens. O objetivo do DML é garantir que imagens semelhantes fiquem próximas umas das outras em um espaço especial chamado espaço de incorporação, enquanto imagens diferentes fiquem mais distantes.

O DML funciona melhor usando métodos de aprendizado profundo, que são sistemas que aprendem com grandes quantidades de dados. Esses sistemas pegam imagens e as transformam em números que mostram como cada imagem se parece. O principal objetivo é usar esses números para descobrir quão semelhantes ou diferentes as imagens são com base em uma distância específica.

No passado, muitas pessoas usavam um tipo de modelo chamado Redes Neurais Convolucionais (CNNs) para DML. Recentemente, alguns estudos começaram a usar um tipo diferente de modelo chamado Vision Transformers (ViTs) para ver se eles poderiam se sair melhor em tarefas específicas. Esses novos modelos aproveitam técnicas originalmente desenhadas para processar linguagem e aplicam-nas a imagens.

A Importância das Funções de Perda

No DML, as funções de perda têm um papel fundamental. Elas dizem ao modelo como ele está indo na tarefa de colocar as imagens nos lugares certos no espaço de incorporação. Geralmente, existem dois tipos principais de funções de perda: perdas baseadas em pares e perdas baseadas em proxies.

As perdas baseadas em pares olham para pares de imagens e verificam quão semelhantes ou diferentes elas são. Embora esse método forneça boas informações, pode ser lento porque precisa comparar muitos pares, o que consome tempo e poder computacional.

As perdas baseadas em proxies tentam melhorar a velocidade. Em vez de comparar cada par, elas criam "proxies", que são representações de diferentes grupos de imagens. Por exemplo, um proxy pode representar todas as imagens de cães enquanto outro pode representar todas as imagens de gatos. Esse método é mais rápido, pois reduz o número de comparações necessárias.

No entanto, os métodos baseados em proxies têm seus próprios problemas. Às vezes, proxies de diferentes classes podem acabar ficando muito próximos uns dos outros, dificultando para o modelo distinguir entre eles. Eles também podem se tornar similares, o que não ajuda no aprendizado.

Introduzindo a Ortogonalidade Suave

Para lidar com os problemas das perdas baseadas em proxies, o conceito de Ortogonalidade Suave (SO) é introduzido. A estratégia SO incentiva os proxies a ficarem o mais separados possível em suas posições. Isso significa que proxies para classes diferentes não devem ficar próximos. A esperança é que, usando SO, os proxies forneçam sinais mais claros e úteis para o modelo, melhorando sua capacidade de aprender a diferenciar imagens.

A ideia principal com SO é medir quão relacionados os proxies estão entre si. Quando os proxies estão próximos, eles podem confundir o modelo, levando a erros. Ao torná-los separados, o modelo tem uma chance melhor de aprender e trabalhar com precisão.

A Estrutura do Método Proposto

O método proposto utiliza o Data-Efficient Image Transformer (DeiT) como base para extrair características importantes das imagens. O objetivo é criar um sistema que melhore a recuperação de imagens, que significa encontrar imagens que correspondam a uma imagem de consulta específica.

Nesse framework, a restrição de Ortogonalidade Suave é adicionada à perda Proxy Anchor. Essa combinação é projetada para garantir que, enquanto o modelo está tentando aprender e recuperar imagens, ele também mantenha uma distância clara entre diferentes proxies.

O framework combina as forças do modelo Vision Transformer e os princípios do aprendizado métrico, garantindo um aprendizado eficaz das características das imagens.

Processo de Avaliação

Para avaliar o framework proposto, vários conjuntos de dados públicos são usados. Esses conjuntos contêm várias imagens que servem como referência para entender o quão bem o método funciona em cenários do mundo real.

Conjuntos de Dados Usados

  1. CUB-200-2011: Esse conjunto de dados consiste em imagens de pássaros que variam em espécies.
  2. Cars-196: Contém imagens de diferentes modelos de carros.
  3. In-Shop Clothes Retrieval: Este conjunto lida com vários itens de roupa.
  4. Stanford Online Products: Um conjunto de dados que foca em várias imagens de produtos.

As medidas de avaliação incluem quão bem o modelo recupera imagens com base em uma consulta dada. Duas métricas principais usadas são a Média da Precisão Média em um certo número de imagens recuperadas e a Precisão no topo da lista.

Resultados e Insights

O método proposto é testado em comparação com outros métodos existentes para ver como ele se sai. Os resultados indicam que o novo método supera significativamente muitas abordagens tradicionais. Isso mostra que a combinação de um Vision Transformer com Ortogonalidade Suave melhora o processo de aprendizado para tarefas de recuperação de imagens.

Comparação com Outros Modelos

  1. O método proposto geralmente tem maior precisão em comparação com métodos mais antigos.
  2. Ao usar o mesmo modelo base, ainda mostra melhor desempenho, indicando que as melhorias não são apenas devido à escolha da base.
  3. A eficácia da restrição SO pode ser vista nas taxas de precisão mais altas em diferentes conjuntos de dados.

O Papel dos Métodos de Pooling

Durante os experimentos, diferentes métodos de pooling foram avaliados. Pooling é uma técnica para resumir informações da saída do modelo. Diferentes métodos de pooling afetam quão bem o modelo pode representar imagens ao recuperar similares.

Tipos de Métodos de Pooling

  1. Concat Pooling: Combina diferentes tokens de saída.
  2. Mean Pooling: Toma a média dos tokens.
  3. CLS Pooling: Usa apenas o token da classe.
  4. DIST Pooling: Usa um token específico desenhado para carregar mais informações.

Os resultados mostram como esses diferentes métodos de pooling impactam o desempenho geral. Por exemplo, Concat pooling funciona melhor para certos conjuntos de dados do que para outros, enquanto DIST pooling mostra desempenho melhorado em várias situações também.

Efeitos das Dimensões de Incorporação

Outro fator crucial no desempenho do sistema é o tamanho das dimensões de incorporação. A dimensão de incorporação determina quanta informação é carregada para o espaço de incorporação. Testar diferentes tamanhos mostra como eles influenciam o desempenho de recuperação.

Descobertas sobre Dimensões de Incorporação

  1. Dimensões de incorporação maiores geralmente levam a um melhor desempenho em tarefas de recuperação.
  2. Diferentes métodos de pooling interagem com dimensões de incorporação, levando a resultados variados entre conjuntos de dados.
  3. O método proposto mostrou que é capaz de manter um alto nível de precisão, mesmo com a mudança das dimensões de incorporação.

Resultados Qualitativos

Além das avaliações numéricas, avaliações qualitativas ajudam a visualizar quão bem o modelo funciona. Resultados visuais mostram as imagens recuperadas em destaque para várias consultas de entrada. Isso fornece uma visão da capacidade do modelo de reconhecer padrões e similaridades entre imagens.

Observações dos Resultados Qualitativos

  1. O modelo PIRT recupera imagens que correspondem de perto às consultas, mantendo consistência visual.
  2. Em conjuntos de dados desafiadores com muitas variações, o desempenho permanece forte.
  3. A capacidade de recuperar imagens relevantes indica a força do modelo em entender o contexto dentro das imagens.

Conclusão

Resumindo, o framework proposto demonstra um avanço significativo no Deep Metric Learning para tarefas de recuperação de imagens. Ao integrar as vantagens dos Vision Transformers com Ortogonalidade Suave, o método mostra melhorias nas capacidades de aprendizado.

Trabalhos futuros poderiam explorar maneiras adicionais de refinar ainda mais o processo de aprendizado, especialmente em relação às relações de proxy e seus papéis dentro do espaço de incorporação.

A abordagem enfatiza a importância de uma separação clara entre proxies para melhorar o treinamento do modelo e a eficácia geral nas tarefas de recuperação. O desempenho do framework em diferentes conjuntos de dados destaca sua durabilidade e potencial para aplicações mais amplas em visão computacional.

Fonte original

Título: Deep Metric Learning with Soft Orthogonal Proxies

Resumo: Deep Metric Learning (DML) models rely on strong representations and similarity-based measures with specific loss functions. Proxy-based losses have shown great performance compared to pair-based losses in terms of convergence speed. However, proxies that are assigned to different classes may end up being closely located in the embedding space and hence having a hard time to distinguish between positive and negative items. Alternatively, they may become highly correlated and hence provide redundant information with the model. To address these issues, we propose a novel approach that introduces Soft Orthogonality (SO) constraint on proxies. The constraint ensures the proxies to be as orthogonal as possible and hence control their positions in the embedding space. Our approach leverages Data-Efficient Image Transformer (DeiT) as an encoder to extract contextual features from images along with a DML objective. The objective is made of the Proxy Anchor loss along with the SO regularization. We evaluate our method on four public benchmarks for category-level image retrieval and demonstrate its effectiveness with comprehensive experimental results and ablation studies. Our evaluations demonstrate the superiority of our proposed approach over state-of-the-art methods by a significant margin.

Autores: Farshad Saberi-Movahed, Mohammad K. Ebrahimpour, Farid Saberi-Movahed, Monireh Moshavash, Dorsa Rahmatian, Mahvash Mohazzebi, Mahdi Shariatzadeh, Mahdi Eftekhari

Última atualização: 2023-06-22 00:00:00

Idioma: English

Fonte URL: https://arxiv.org/abs/2306.13055

Fonte PDF: https://arxiv.org/pdf/2306.13055

Licença: https://creativecommons.org/licenses/by/4.0/

Alterações: Este resumo foi elaborado com a assistência da AI e pode conter imprecisões. Para obter informações exactas, consulte os documentos originais ligados aqui.

Obrigado ao arxiv pela utilização da sua interoperabilidade de acesso aberto.

Mais de autores

Artigos semelhantes