Simple Science

Ciência de ponta explicada de forma simples

# Informática# Visão computacional e reconhecimento de padrões# Multimédia

Avanços na pesquisa de ReID de texto para imagem

Um novo conjunto de dados melhora a precisão na correspondência de texto para imagem.

― 6 min ler


Novo Conjunto de DadosNovo Conjunto de DadosImpulsiona Tarefas deReIDcorrespondência entre texto e imagem.IIITD-20K melhora a eficácia de
Índice

Text-to-Image ReID é uma tarefa onde as pessoas tentam combinar uma descrição em texto de uma pessoa com as Imagens dessa pessoa. É mais difícil do que só combinar imagens com outras imagens, porque as descrições em texto podem ser vagas e nem sempre capturam todos os detalhes de uma imagem. Por causa disso, os pesquisadores estão sempre buscando maneiras de facilitar e tornar essa tarefa mais precisa.

Conjuntos de Dados Atuais

No passado, houveram alguns conjuntos de dados para incentivar a pesquisa nessa área. Alguns deles são CUHK-PEDES, RSTPReid e ICFG-PEDES.

  • CUHK-PEDES tem cerca de 13.003 pessoas diferentes e 40.206 imagens, mas as descrições costumam ser curtas e menos detalhadas.
  • RSTPReid e ICFG-PEDES usam imagens de outro conjunto de dados chamado MSMT17, mas não têm tantas identidades únicas.

Esses conjuntos de dados foram coletados em ambientes limitados, usando um pequeno número de câmeras, o que restringe a variedade de situações em que as imagens foram tiradas.

A Necessidade de um Novo Conjunto de Dados

Para melhorar a situação atual, foi criado um novo conjunto de dados chamado IIITD-20K. Esse conjunto tem 20.000 identidades únicas com imagens tiradas em ambientes do mundo real. Cada imagem tem pelo menos 26 palavras descrevendo-a, oferecendo informações mais ricas.

Esse novo conjunto é essencial porque inclui uma grande variedade de pessoas capturadas em diferentes ambientes. Com descrições mais detalhadas, o conjunto apoia pesquisas mais profundas em text-to-image ReID, tornando-se um recurso mais eficaz para entender como combinar texto com imagens.

Problemas em Combinar Texto e Imagens

Combinar texto com imagens não é simples. As descrições em texto podem ser generalizadas, enquanto as imagens contêm informações visuais detalhadas. Essa discrepância causa um grande abismo entre o que é capturado pelas palavras e o que é mostrado nas imagens.

Quando uma descrição em texto é vaga, pode levar à confusão. Por exemplo, diferentes imagens podem ter descrições semelhantes, dificultando para os modelos determinar qual imagem corresponde ao texto.

Como os Conjuntos de Dados Existentes Funcionam

Aqui está como alguns conjuntos de dados existentes foram formados:

  • O CUHK-PEDES foi criado usando imagens de vários outros conjuntos de dados. Ele fornece duas Legendas para cada imagem, mas muitas vezes falta profundidade.
  • RSTPReid e ICFG-PEDES buscavam aumentar a variedade usando imagens do MSMT17, que foram tiradas sob diferentes condições. No entanto, eles ainda ficam aquém devido a menos identidades únicas e descrições de texto mais curtas.

O conjunto IIITD-20K aborda esses problemas reunindo imagens de fontes públicas e garantindo que tenham legendas adequadas com bastante detalhe.

Como o Novo Conjunto de Dados é Criado

O conjunto IIITD-20K é construído a partir da coleta de imagens da web, garantindo que sejam claras e focadas na pessoa toda. As imagens cobrem várias cidades e são dos anos 2012 a 2022.

Cada uma das 20.000 imagens vem com duas legendas – essas legendas são ricas, contendo entre 20 e 60 palavras cada. Isso resulta em um total de cerca de 1,4 milhão de palavras e mais de 53.000 frases. Essa profundidade nas descrições permite uma melhor correspondência com as imagens.

Melhorando com Dados Sintéticos

Para melhorar ainda mais o treinamento dos modelos, imagens e legendas sintéticas são criadas usando métodos avançados. Por exemplo, modelos generativos como LDM (Latent Diffusion Model) e BLIP (Bootstrapping Language-Image Pre-training) ajudam a criar novas imagens e suas legendas correspondentes.

Treinando esses modelos no conjunto IIITD-20K, mais imagens e legendas são geradas. Esses dados sintéticos funcionam como material extra de treinamento para ajudar os modelos a performarem melhor na combinação de texto com imagens.

Avaliação do Conjunto de Dados

Para testar quão bem o conjunto IIITD-20K se desempenha, os pesquisadores o dividem em três partes: treinamento, validação e teste. O conjunto de treinamento é grande, contendo a maior parte dos dados, enquanto os conjuntos de validação e teste são menores para garantir precisão na medição do sucesso dos modelos.

A análise envolve vários métodos populares para medir quão bem os modelos conseguem encontrar imagens correspondentes baseadas em descrições de texto. As métricas usadas incluem Rank-k e mean Average Precision (mAP). Isso ajuda os pesquisadores a entender a eficácia de seus modelos em situações do mundo real.

Resultados dos Experimentos

Experimentos são realizados usando o conjunto de dados original e os dados sintéticos, revelando resultados importantes. Por exemplo, descobriu-se que usar dados sintéticos durante o treinamento melhorou significativamente o desempenho do modelo.

Usar imagens originais junto com legendas sintéticas gera um desempenho decente, mostrando que mesmo com imprecisões nas legendas sintéticas, elas agregam valor no treinamento.

Benefícios do Novo Conjunto de Dados

O conjunto IIITD-20K oferece muitos benefícios:

  1. Descrições Ricas: O conjunto tem legendas mais longas e detalhadas que ajudam em uma melhor correspondência.
  2. Grande Diversidade: Com 20.000 identidades únicas, oferece uma ampla gama de exemplos para treinamento.
  3. Dados do Mundo Real: As imagens são tiradas em ambientes do dia a dia, tornando-as mais aplicáveis a situações reais.

Esses fatores fazem do IIITD-20K um recurso valioso para avançar a pesquisa em text-to-image ReID.

Tendências de Pesquisa Relacionadas

Nos últimos anos, houve muito interesse em reconhecimento cross-modal, que envolve usar diferentes tipos de dados (como texto e imagens) juntos. Muitos pesquisadores se concentram em duas abordagens principais:

  1. Embedding de Recursos Globais: Métodos anteriores se concentravam em encontrar características gerais de imagens e Textos, mas muitas vezes perdiam detalhes mais finos.
  2. Modelos Baseados em Atenção: Abordagens mais recentes utilizam mecanismos de atenção para melhorar a maneira como o texto e as imagens se relacionam, capturando detalhes mais específicos.

Os pesquisadores também estão explorando modelos avançados como Transformers que integram texto e imagens para melhorar o desempenho em várias tarefas, como recuperação de imagens e legendagem.

Conclusão

O conjunto IIITD-20K representa um passo significativo na pesquisa de text-to-image ReID. Ao oferecer um grande conjunto diversificado de identidades e legendas extensas, ele fornece uma excelente referência para estudos futuros. A integração de dados sintéticos aumenta o potencial para um melhor desempenho do modelo.

À medida que a tecnologia evolui, o objetivo é reduzir ainda mais a lacuna entre texto e imagens, tornando o processo de combinação dessas duas modalidades mais eficiente e preciso. Este conjunto de dados e os achados dos experimentos estabelecem uma base sólida para futuros avanços na área.

Fonte original

Título: IIITD-20K: Dense captioning for Text-Image ReID

Resumo: Text-to-Image (T2I) ReID has attracted a lot of attention in the recent past. CUHK-PEDES, RSTPReid and ICFG-PEDES are the three available benchmarks to evaluate T2I ReID methods. RSTPReid and ICFG-PEDES comprise of identities from MSMT17 but due to limited number of unique persons, the diversity is limited. On the other hand, CUHK-PEDES comprises of 13,003 identities but has relatively shorter text description on average. Further, these datasets are captured in a restricted environment with limited number of cameras. In order to further diversify the identities and provide dense captions, we propose a novel dataset called IIITD-20K. IIITD-20K comprises of 20,000 unique identities captured in the wild and provides a rich dataset for text-to-image ReID. With a minimum of 26 words for a description, each image is densely captioned. We further synthetically generate images and fine-grained captions using Stable-diffusion and BLIP models trained on our dataset. We perform elaborate experiments using state-of-art text-to-image ReID models and vision-language pre-trained models and present a comprehensive analysis of the dataset. Our experiments also reveal that synthetically generated data leads to a substantial performance improvement in both same dataset as well as cross dataset settings. Our dataset is available at https://bit.ly/3pkA3Rj.

Autores: A V Subramanyam, Niranjan Sundararajan, Vibhu Dubey, Brejesh Lall

Última atualização: 2023-05-08 00:00:00

Idioma: English

Fonte URL: https://arxiv.org/abs/2305.04497

Fonte PDF: https://arxiv.org/pdf/2305.04497

Licença: https://creativecommons.org/licenses/by/4.0/

Alterações: Este resumo foi elaborado com a assistência da AI e pode conter imprecisões. Para obter informações exactas, consulte os documentos originais ligados aqui.

Obrigado ao arxiv pela utilização da sua interoperabilidade de acesso aberto.

Mais de autores

Artigos semelhantes