Simple Science

Ciência de ponta explicada de forma simples

# Informática# Visão computacional e reconhecimento de padrões

Método Inovador para Busca de Pessoas Baseada em Texto

Uma nova abordagem permite buscas de imagem sem dados emparelhados caros.

― 9 min ler


Nova tecnologia paraNova tecnologia parabuscas de pessoaspor descrições.Um jeito econômico de procurar imagens
Índice

A busca de pessoas baseada em texto (TBPS) é um método que permite que as pessoas encontrem imagens de indivíduos em uma grande coleção com base em descrições escritas. Isso tem várias aplicações, especialmente em segurança, como rastrear pessoas desaparecidas ou identificar suspeitos. As abordagens tradicionais de TBPS exigem muitos dados emparelhados, onde cada imagem tem um texto descritivo correspondente. No entanto, obter esses dados é muito caro e trabalhoso.

Esse trabalho quer mudar isso, tentando fazer TBPS sem precisar desses emparelhamentos caros. Em vez disso, combina imagens e descrições não combinadas para alcançar o mesmo objetivo. Esse novo método tem potencial para ser mais eficiente e prático, mantendo a eficácia.

O Desafio dos Métodos Tradicionais

Nos métodos tradicionais de TBPS, os sistemas exigem uma correspondência direta entre imagens e descrições, o que pode ser difícil de criar. O processo de rotular imagens com descrições de texto requer um esforço humano significativo e tempo. Muitos métodos existentes usam algoritmos complexos para aprender com esses pares, resultando em melhor desempenho de busca. No entanto, a necessidade de dados rotulados limita a utilização desses sistemas.

Alguns pesquisadores têm buscado maneiras de reduzir a necessidade de dados rotulados. Por exemplo, certos métodos permitem o uso de imagens sem descrições emparelhadas, mas ainda dependem de dados de fontes semelhantes. Isso levanta a questão: é possível realizar TBPS de forma eficaz sem precisar desses conjuntos de dados caros?

Abordagem Proposta: Geração Depois Recuperação (GTR)

Este trabalho propõe uma estrutura de dois passos chamada Geração Depois Recuperação (GTR). O primeiro passo gera descrições de texto para cada imagem, e o segundo passo usa essas descrições para encontrar as imagens correspondentes com base em uma consulta de busca.

Passo 1: Geração de Texto

Para gerar descrições para as imagens, essa abordagem usa um processo chamado legendagem de imagem de alta precisão. O objetivo é criar descrições detalhadas de cada pessoa em uma imagem, aproveitando modelos existentes que conseguem entender imagens e texto.

Essa fase de geração envolve o uso de prompts ou perguntas específicas que ajudam o modelo a identificar atributos detalhados da pessoa na imagem, como suas roupas, acessórios e outras características. O modelo então produz uma descrição de texto com base nesses atributos, que pode ser mais informativa e relevante para a consulta de busca.

Passo 2: Processo de Recuperação

Uma vez que as imagens têm descrições de texto geradas, o sistema usa esses textos para recuperar as imagens. Isso é feito de forma supervisionada, ou seja, o modelo de recuperação é treinado sobre como corresponder texto a imagens de forma eficaz.

No entanto, como os textos gerados podem nem sempre ser precisos ou estar perfeitamente alinhados com as imagens, há um fator de ruído a considerar. Para mitigar o impacto dessas imprecisões, a abordagem introduz um sistema de pontuação de confiabilidade. Esse sistema dá diferentes pesos aos textos gerados com base em quão prováveis eles são de corresponder às imagens, permitindo que o modelo foque nos textos mais confiáveis durante o treinamento.

Importância das Descrições Detalhadas

Obter uma Descrição Detalhada para cada pessoa em uma imagem é crucial para melhorar a precisão da busca. Métodos tradicionais de detecção de objetos podem não fornecer o nível de detalhe necessário para buscas eficazes de pessoas. Portanto, legendagem de imagem de alta precisão é essencial nessa abordagem.

A legendagem de alta precisão começa com modelos que extraem características específicas das imagens. Essas características incluem vários estilos de roupa, cores e outros atributos físicos relevantes para identificar a pessoa. Uma vez que essas características são extraídas, elas devem ser transformadas em uma descrição de texto coerente.

Aproveitando Prompts Instrutivos

Para melhorar a qualidade da descrição, um conjunto de prompts instrutivos especialmente projetados pode guiar o modelo. Esses prompts ajudam o modelo a entender quais detalhes específicos procurar na imagem, garantindo que o texto gerado seja rico em detalhes.

Por exemplo, os prompts podem fazer perguntas sobre o gênero da pessoa, tipo de roupa e cores, entre outros atributos. Essa abordagem direcionada permite que o modelo crie descrições muito mais significativas, que são especialmente importantes para a identificação de pessoas.

Lidando com o Ruído dos Textos Gerados

Como mencionado anteriormente, os textos gerados nem sempre refletem com precisão o conteúdo das imagens. Algumas descrições geradas podem ser genéricas ou incorretas, levando a um desempenho de recuperação reduzido. Portanto, abordar esse ruído é essencial para manter a precisão no TBPS.

A abordagem GTR busca reduzir o impacto dessas imprecisões ao implementar um sistema de pontuação de confiabilidade. Esse sistema avalia a precisão do texto gerado associado a cada imagem. Ao fornecer pesos com base nessa pontuação de confiabilidade, o modelo pode priorizar o uso de melhores descrições durante o processo de recuperação.

Impacto das Pontuações de Confiabilidade

As pontuações de confiabilidade desempenham um papel fundamental na refinamento dos resultados de busca. Pontuações mais altas indicam descrições mais confiáveis, permitindo que o modelo de recuperação se concentre nessas durante o treinamento. Isso significa que, mesmo que algumas descrições sejam imprecisas, o sistema ainda pode funcionar de maneira eficaz ao confiar naquelas que são mais propensas a estar corretas.

Validação Experimental

Para validar a eficácia da abordagem GTR, os pesquisadores realizaram várias experiências em múltiplos conjuntos de dados focados em TBPS. Os resultados mostraram que o método proposto poderia alcançar um desempenho impressionante mesmo sem a necessidade de pares de imagem-texto paralelos.

Nessas experiências, a estrutura GTR foi avaliada contra vários benchmarks para medir seu desempenho de recuperação. As métricas usadas incluíram com que frequência as imagens corretas foram recuperadas com base na entrada textual dada.

Comparação de Resultados

As descobertas revelaram que o GTR superou métodos de referência que dependiam de métodos de geração de texto mais simples, como tecnologias básicas de detecção de objetos. Isso sugere que a abordagem de legendagem de imagem de alta precisão resulta em melhores resultados de recuperação, destacando a importância de descrições detalhadas no TBPS.

Além disso, o treinamento baseado em pontuação de confiabilidade provou ser benéfico para mitigar o ruído introduzido por textos gerados menos confiáveis. Isso enfatiza ainda mais a validade do uso de uma abordagem estruturada para lidar com possíveis imprecisões nos dados gerados.

Impacto Mais Amplo nas Aplicações

A capacidade de realizar buscas de pessoas baseadas em texto sem depender de dados anotados por humanos caros tem implicações significativas em várias áreas. Por exemplo, em projetos de cidades inteligentes e aplicações de segurança pública, esse método poderia ajudar as autoridades a responder rapidamente a incidentes, permitindo que elas procurem indivíduos com base em descrições escritas simples.

Ao agilizar o processo de coleta de pares de imagem-texto, essa abordagem pode levar a implementações mais rápidas em sistemas de vigilância, melhorando, em última análise, as medidas de segurança pública. A mudança em direção a métodos custo-efetivos no TBPS também pode liberar recursos para serem usados em outras áreas vitais.

Considerações Éticas

Embora as vantagens dessa nova abordagem sejam claras, as considerações éticas sobre privacidade e coleta de dados também precisam ser abordadas. Imagens de vigilância muitas vezes contêm indivíduos privados sem seu consentimento, levantando preocupações sobre uso indevido e invasão de privacidade.

Para mitigar esses riscos, mais esforços comunitários são necessários para gerenciar de maneira responsável a coleta de dados para fins de vigilância. Encontrar um equilíbrio entre o avanço tecnológico e práticas éticas é fundamental para garantir que esses sistemas sejam implementados sem comprometer os direitos individuais.

Direções Futuras de Trabalho

A metodologia proposta abre portas para várias direções futuras de pesquisa. Uma área que vale a pena explorar é a integração de outras fontes de dados para enriquecer ainda mais as descrições geradas para as imagens. Combinar tipos de dados, como informações textuais adicionais ou conhecimento específico do contexto, poderia ainda mais melhorar a qualidade descritiva.

Além disso, os pesquisadores podem investigar maneiras de refinar ainda mais o modelo, aprimorando sua capacidade de lidar com uma variedade maior de textos e imagens. Isso poderia incluir adaptar técnicas que funcionam bem em áreas relacionadas, como processamento de linguagem natural, para melhorar o processo de geração de texto.

Conclusão

A mudança em direção à realização de TBPS sem a necessidade onerosa de dados paralelos de imagem-texto representa um avanço significativo na área. Ao adotar a estrutura GTR, essa abordagem utiliza um método estruturado para gerar descrições detalhadas e recuperar imagens de forma eficaz.

Os resultados promissores dos experimentos confirmam que esse método pode alcançar alto desempenho enquanto economiza custos associados à geração de conjuntos de dados anotados. Além disso, a consideração das implicações éticas enfatiza a necessidade de inovação responsável no desenvolvimento tecnológico.

Com pesquisas em andamento, as aplicações potenciais do TBPS poderiam se expandir, melhorando a segurança pública e avançando iniciativas de cidades inteligentes, enquanto consideram o aspecto vital da ética na implementação da tecnologia.

Fonte original

Título: Text-based Person Search without Parallel Image-Text Data

Resumo: Text-based person search (TBPS) aims to retrieve the images of the target person from a large image gallery based on a given natural language description. Existing methods are dominated by training models with parallel image-text pairs, which are very costly to collect. In this paper, we make the first attempt to explore TBPS without parallel image-text data ($\mu$-TBPS), in which only non-parallel images and texts, or even image-only data, can be adopted. Towards this end, we propose a two-stage framework, generation-then-retrieval (GTR), to first generate the corresponding pseudo text for each image and then perform the retrieval in a supervised manner. In the generation stage, we propose a fine-grained image captioning strategy to obtain an enriched description of the person image, which firstly utilizes a set of instruction prompts to activate the off-the-shelf pretrained vision-language model to capture and generate fine-grained person attributes, and then converts the extracted attributes into a textual description via the finetuned large language model or the hand-crafted template. In the retrieval stage, considering the noise interference of the generated texts for training model, we develop a confidence score-based training scheme by enabling more reliable texts to contribute more during the training. Experimental results on multiple TBPS benchmarks (i.e., CUHK-PEDES, ICFG-PEDES and RSTPReid) show that the proposed GTR can achieve a promising performance without relying on parallel image-text data.

Autores: Yang Bai, Jingyao Wang, Min Cao, Chen Chen, Ziqiang Cao, Liqiang Nie, Min Zhang

Última atualização: 2023-08-04 00:00:00

Idioma: English

Fonte URL: https://arxiv.org/abs/2305.12964

Fonte PDF: https://arxiv.org/pdf/2305.12964

Licença: https://creativecommons.org/licenses/by/4.0/

Alterações: Este resumo foi elaborado com a assistência da AI e pode conter imprecisões. Para obter informações exactas, consulte os documentos originais ligados aqui.

Obrigado ao arxiv pela utilização da sua interoperabilidade de acesso aberto.

Mais de autores

Artigos semelhantes