Simple Science

Ciência de ponta explicada de forma simples

# Informática# Visão computacional e reconhecimento de padrões# Multimédia

Avanços nas Técnicas de Recuperação de Imagens Compostas

Esse método melhora a busca de imagens ao combinar imagens e texto de forma eficaz.

― 6 min ler


Técnicas de CIRTécnicas de CIRMelhoradasexemplos.modificação de imagem usando menosNovo método melhora tarefas de
Índice

A Recuperação de Imagens Compostas (CIR) é um jeito que permite que os usuários encontrem imagens usando uma mistura de uma imagem de referência e algum texto que descreve como essa imagem deve mudar. Isso é super útil quando a galera não consegue explicar claramente o que quer só com um tipo de input, tipo só texto ou só imagens. Por exemplo, se alguém quiser mudar a cor de uma camisa numa foto, pode mostrar a camisa original e descrever a mudança de cor que deseja em palavras.

CIR ficou popular, especialmente em áreas como compras online, onde os usuários muitas vezes querem modificar imagens existentes de produtos. Mas treinar modelos pra que funcionem bem em CIR pode ser complicado, principalmente porque reunir os Dados de Treinamento necessários dá um trabalhão e custa caro. Tradicionalmente, o treinamento envolve criar muitos “trios” de dados, que consistem em uma imagem de referência, o texto de modificação e a imagem alvo (a versão modificada).

O Desafio de Treinar Modelos CIR

A maioria dos métodos antigos de CIR depende bastante de trios anotados, tornando o processo lento e trabalhoso. Isso fez com que os pesquisadores buscassem formas de reduzir a necessidade de grandes quantidades de dados rotulados. Uma abordagem mais nova, chamada CIR de poucos exemplos (FS-CIR), sugere que usar só um número pequeno de exemplos anotados ainda pode ajudar a treinar modelos de forma eficaz. Mas esse método ainda tem suas desvantagens.

Os principais problemas com os métodos atuais de FS-CIR incluem:

  1. Treinamento Limitado: Muitos modelos dependem de um número pequeno de exemplos pra aprender como combinar a imagem e o texto efetivamente. Esse treinamento limitado não é suficiente pros modelos lidarem com tipos variados de modificações.

  2. Seleção Aleatória de Exemplos: Métodos existentes muitas vezes selecionam exemplos aleatórios pra treinamento, que não consideram as diferenças de quão difícil cada exemplo é. Alguns exemplos são simples, enquanto outros podem exigir um entendimento mais complexo pra processar.

Introduzindo a Abordagem de Duas Etapas

Pra melhorar o desempenho em CIR, uma abordagem de duas etapas é proposta:

  1. Pré-treinamento Baseado em Pseudo-Trio: Na primeira etapa, em vez de depender de imagens e textos rotulados, uma grande quantidade de dados de imagem não marcados é usada pra criar “pseudo trios.” Isso é feito obscurando partes das imagens e gerando legendas que as descrevem. O modelo aprende com esses pseudo trios pra ganhar conhecimento inicial sobre como combinar imagem e texto.

  2. Aperfeiçoamento Baseado em Trio Desafiador: Na segunda etapa, alguns exemplos reais anotados são selecionados, focando nos mais desafiadores. Um método pra medir a complexidade de cada exemplo é desenvolvido, ajudando a escolher os melhores pra treinamento. O objetivo é melhorar a capacidade do modelo de lidar com diferentes tipos de modificações de forma eficaz.

Benefícios da Abordagem Proposta

Essa abordagem de duas etapas oferece várias vantagens:

  • Menor Dependência de Amostras Rotuladas: Ao usar muito dados de imagem não rotulados na primeira etapa, o modelo pode ganhar uma base forte de conhecimento sem precisar de muita rotulagem.

  • Aprendizado Focado: Ao selecionar exemplos mais difíceis na segunda etapa, o modelo pode melhorar sua compreensão sobre tarefas de modificação complexas, levando a um desempenho melhor.

  • Versatilidade: Esse método pode ser usado com vários modelos existentes, tornando-o adaptável pra diferentes aplicações.

Testando a Abordagem

Pra avaliar esse novo método, os pesquisadores testaram usando três conjuntos de dados diferentes: FashionIQ, CIRR e Birds-to-Words. Cada conjunto contém várias imagens e cenários de modificação, permitindo uma avaliação completa de quão bem o modelo pode lidar com tarefas de CIR.

Conjunto de Dados FashionIQ

Esse conjunto foca em itens de moda, contendo milhares de imagens em diferentes categorias, como vestidos e camisas. A abordagem mostrou melhorias significativas em como o modelo recuperou imagens baseadas nos pedidos descritivos dos usuários.

Conjunto de Dados CIRR

CIRR inclui imagens de vários domínios abertos, fornecendo uma rica fonte pra testes. Os resultados indicaram que o método de duas etapas também se saiu bem aqui, mostrando sua eficácia em cenários diversos.

Conjunto de Dados Birds-to-Words

Esse conjunto contém imagens de pássaros com pares de imagens que descrevem comparações. O método provou ser eficaz nesse contexto, mostrando sua capacidade de se adaptar a diferentes tipos de pedidos de modificação.

Análise dos Resultados

  1. Desempenho Melhorado: Em todos os conjuntos de dados testados, o novo método superou os modelos anteriores. Isso destaca sua eficácia, especialmente no contexto de aprendizado com poucos exemplos, onde os dados são limitados.

  2. Seleção Ativa de Amostras: O estudo confirmou que selecionar exemplos mais complexos pra treinamento ajudou a melhorar a compreensão e adaptabilidade do modelo. Esse método aumenta significativamente o que o modelo pode aprender com menos amostras anotadas.

  3. Uso Flexível: A flexibilidade desse método permite que ele se encaixe em vários modelos existentes, fazendo dele uma adição valiosa ao conjunto de ferramentas para tarefas de recuperação de imagem.

Limitações e Trabalho Futuro

Apesar desses sucessos, alguns desafios ainda permanecem:

  1. Qualidade dos Pseudo-Trio: O método depende da geração de pseudo trios, e a qualidade pode variar. Se as legendas não capturam exatamente as informações nas imagens, isso pode afetar o treinamento.

  2. Complexidade na Seleção de Amostras: A forma como amostras desafiadoras são selecionadas não é perfeita, e ainda existe potencial pra exemplos de baixa qualidade afetarem os resultados.

  3. Desempenho com Modelos Complexos: À medida que os modelos se tornam mais complexos, pode haver inconsistências no desempenho. Mais trabalho é necessário pra garantir que o método possa escalar de forma eficaz.

Conclusão

A Recuperação de Imagens Compostas é um método poderoso que permite aos usuários encontrar e modificar imagens usando tanto input visual quanto textual. A abordagem de duas etapas de usar pseudo trios pra pré-treinamento e selecionar exemplos desafiadores pra aperfeiçoamento melhora a capacidade do modelo de lidar com uma variedade de pedidos de modificação. Ao reduzir a dependência de conjuntos de dados rotulados extensos e focar na seleção de amostras de qualidade, esse método abre portas pra aplicações mais práticas em áreas como e-commerce e busca de produtos online. Pesquisas futuras vão focar em melhorar a qualidade dos pseudo trios e garantir um desempenho ótimo em modelos mais complexos.

Fonte original

Título: Pseudo-triplet Guided Few-shot Composed Image Retrieval

Resumo: Composed Image Retrieval (CIR) is a challenging task that aims to retrieve the target image with a multimodal query, i.e., a reference image, and its complementary modification text. As previous supervised or zero-shot learning paradigms all fail to strike a good trade-off between the model's generalization ability and retrieval performance, recent researchers have introduced the task of few-shot CIR (FS-CIR) and proposed a textual inversion-based network based on pretrained CLIP model to realize it. Despite its promising performance, the approach encounters two key limitations: simply relying on the few annotated samples for CIR model training and indiscriminately selecting training triplets for CIR model fine-tuning. To address these two limitations, we propose a novel two-stage pseudo triplet guided few-shot CIR scheme, dubbed PTG-FSCIR. In the first stage, we propose an attentive masking and captioning-based pseudo triplet generation method, to construct pseudo triplets from pure image data and use them to fulfill the CIR-task specific pertaining. In the second stage, we propose a challenging triplet-based CIR fine-tuning method, where we design a pseudo modification text-based sample challenging score estimation strategy and a robust top range-based random sampling strategy for sampling robust challenging triplets to promote the model fine-tuning. Notably, our scheme is plug-and-play and compatible with any existing supervised CIR models. We test our scheme across two backbones on three public datasets (i.e., FashionIQ, CIRR, and Birds-to-Words), achieving maximum improvements of 13.3%, 22.2%, and 17.4% respectively, demonstrating our scheme's efficacy.

Autores: Bohan Hou, Haoqiang Lin, Haokun Wen, Meng Liu, Mingzhu Xu, Xuemeng Song

Última atualização: 2024-11-12 00:00:00

Idioma: English

Fonte URL: https://arxiv.org/abs/2407.06001

Fonte PDF: https://arxiv.org/pdf/2407.06001

Licença: https://creativecommons.org/licenses/by/4.0/

Alterações: Este resumo foi elaborado com a assistência da AI e pode conter imprecisões. Para obter informações exactas, consulte os documentos originais ligados aqui.

Obrigado ao arxiv pela utilização da sua interoperabilidade de acesso aberto.

Artigos semelhantes