Avanços na Reidentificação de Pessoas Ocluídas
Uma nova abordagem melhora a identificação mesmo com obstruções visuais.
― 8 min ler
Índice
Identificar pessoas em diferentes câmeras pode ser complicado, especialmente quando partes delas estão bloqueadas por objetos. Esse problema se chama re-identificação de pessoas ocluídas (Re-ID). Métodos normais costumam depender de ver a pessoa inteira, mas na vida real, a gente vê imagens incompletas por causa de coisas como outras pessoas, carros ou até árvores bloqueando a vista.
Esse texto fala sobre uma nova forma de lidar com esse problema usando um sistema chamado Feature Completion Transformer (FCFormer). Em vez de ignorar as partes de uma pessoa que não estão visíveis, o FCFormer ajuda a recuperar as características que estão faltando usando técnicas mais inteligentes. Isso é importante porque pode realmente ajudar a melhorar a identificação de pessoas, mesmo quando elas não estão completamente visíveis.
Por que a Re-ID de pessoas ocluídas é importante?
A Re-ID de pessoas ocluídas tem várias aplicações práticas. Pode ajudar em áreas como segurança, onde a gente quer monitorar indivíduos em lugares cheios. Por exemplo, em aeroportos ou shoppings, as câmeras capturam imagens de pessoas que podem estar escondidas atrás de outras. Sem um bom sistema para identificá-las, informações cruciais podem se perder, dificultando o monitoramento de movimentos e segurança.
Esse problema é um grande desafio porque a maioria dos sistemas atuais é treinada com imagens de pessoas totalmente visíveis. Quando eles encontram imagens onde algumas partes estão bloqueadas, o desempenho cai muito. Por isso, é essencial encontrar maneiras melhores de gerenciar esses casos.
O Problema
A Re-ID de pessoas ocluídas enfrenta três desafios principais:
- Não tem muitos exemplos nos dados de treinamento que mostrem como as oclusões parecem. Isso dificulta o aprendizado dos modelos para lidar com essas situações.
- As oclusões introduzem informações não relacionadas que podem confundir o modelo, afetando a extração de características.
- Quando partes de uma pessoa estão escondidas, as informações que ajudam a identificá-la são perdidas, dificultando a correspondência com a identidade certa.
Muitas tentativas foram feitas para resolver esses problemas, mas muitas vezes focam apenas em um aspecto e perdem a visão geral. Este texto apresenta uma abordagem nova que tenta resolver cada um desses problemas ao mesmo tempo.
O Feature Completion Transformer (FCFormer)
O FCFormer tem como objetivo oferecer uma solução melhor para a Re-ID de pessoas ocluídas. Funciona combinando várias técnicas inteligentes para preencher as lacunas deixadas pelas partes ocluídas das características de uma pessoa. Veja como faz isso:
Aumento de Instâncias de Oclusão (OIA)
Para ajudar os modelos a aprenderem melhor, o FCFormer introduz o OIA, que cria imagens realistas de oclusões em diferentes situações. Isso permite que o modelo seja treinado com uma variedade maior de imagens ocluídas, tornando-o mais robusto a diversas condições do mundo real. O OIA enriquece o conjunto de dados de treinamento com amostras que simulam melhor as oclusões do ambiente real, ajudando o sistema a entender que tipos de oclusões pode encontrar.
Arquitetura de Duplo Fluxo
O FCFormer usa uma arquitetura de duplo fluxo com um codificador compartilhado. Isso significa que processa tanto imagens inteiras quanto imagens ocluídas ao mesmo tempo, mas com caminhos diferentes no sistema. O codificador compartilhado ajuda a extrair características de ambos os tipos de imagens, enquanto partes específicas da arquitetura focam em aprender os padrões únicos de imagens inteiras ou ocluídas. Essa estrutura permite que o modelo entenda melhor o que procurar ao identificar pessoas.
Decodificador de Conclusão de Características (FCD)
Um dos componentes principais do FCFormer é o FCD, que é projetado para preencher as lacunas das características que faltam em imagens ocluídas. Ele usa o que sabe sobre as características de imagens inteiras para ajudar a adivinhar quais partes faltam. Dessa forma, mesmo que uma imagem mostre apenas uma parte de uma pessoa, o sistema ainda pode reconhecê-la com base no que aprendeu de outras imagens.
Desafios na Re-ID Ocluída
O problema da oclusão apresenta um desafio significativo na Re-ID de pessoas por algumas razões:
Amostras Limitadas: Os modelos muitas vezes não têm exemplos suficientes de pessoas com oclusões, tornando mais difícil o aprendizado eficaz.
Ruído: Quando partes de uma pessoa estão escondidas, o sistema pode pegar detalhes não relacionados que confundem a extração de características e pioram seu desempenho.
Perda de Informações Importantes: Se grandes seções de uma pessoa estiverem bloqueadas, o modelo tem dificuldade em reconhecer características distintas, dificultando a correspondência com a identidade certa.
Métodos tradicionais costumam depender de informações adicionais, como estimativa de poses ou máscaras de segmentação, para ajudar no processo de aprendizado. No entanto, esses métodos podem ser propensos a erros, especialmente em ambientes bagunçados ou complexos.
Como o FCFormer Funciona
O FCFormer aborda esses desafios com vários designs estratégicos:
Construindo um Conjunto de Dados Rico em Oclusões
Para criar uma variedade de imagens ocluídas para treinamento, o FCFormer combina imagens de vários conjuntos de dados e remove ruídos de fundo irrelevantes. Foca em oclusões comuns, como as causadas por veículos ou outras pessoas, e constrói uma Biblioteca de Instâncias de Oclusão (OIL). Essa biblioteca contém uma grande coleção de exemplos de oclusão que ajudam a melhorar o processo de treinamento.
Aprendizado de Duplo Fluxo
A estrutura de aprendizado de duplo fluxo permite que o sistema processe imagens holísticas (corpo inteiro) e ocluídas simultaneamente. Essa configuração possibilita um aprendizado melhor a partir de ambos os tipos de imagens, já que as características das imagens inteiras podem fornecer um contexto útil para entender as ocluídas.
Aprendizado Auto-supervisionado
Usando um método de aprendizado auto-supervisionado, o FCFormer pode treinar sem precisar de rótulos extras. Comparando características de imagens ocluídas e holísticas, cria uma solução mais flexível e escalável que ajuda o sistema a aprender de forma mais eficaz com os dados que tem.
Funções de Perda para Melhoria
O FCFormer inclui funções de perda especiais que ajudam a melhorar o desempenho do modelo. A Cross Hard Triplet Loss (CHT) encontra as amostras positivas e negativas mais difíceis no conjunto de dados para ajudar o modelo a distinguir melhor as características. A Feature Completion Consistency Loss (FC) garante que as características completadas sejam similares às características completas encontradas nas imagens inteiras, facilitando o aprendizado das relações corretas pelo sistema.
Avaliação do FCFormer
Para mostrar quão eficaz é o FCFormer, ele foi testado em vários conjuntos de dados, incluindo situações ocluídas e não ocluídas. Os resultados mostraram que o FCFormer superou significativamente outros métodos existentes, alcançando taxas de precisão mais altas na identificação de pessoas, mesmo quando estavam parcialmente escondidas.
Comparações de Desempenho
O desempenho do FCFormer foi comparado com outros métodos de ponta em conjuntos de dados como Occluded-Duke e P-DukeMTMC. Os resultados mostraram que o FCFormer consistentemente alcançou melhores taxas de precisão em comparação com modelos anteriores, especialmente em cenários com oclusões.
No conjunto de dados Occluded-Duke, o FCFormer alcançou uma precisão de Rank-1 notável de 71,3%.
No conjunto de dados P-DukeMTMC, o modelo alcançou 91,5% de precisão de Rank-1.
Essas comparações destacam a robustez e eficácia do FCFormer em lidar com os aspectos desafiadores da Re-ID de pessoas ocluídas.
Limitações e Trabalhos Futuros
Embora o FCFormer mostre resultados impressionantes, ainda há espaço para melhorias. O modelo atual pode enfrentar desafios ao cruzar de um tipo de conjunto de dados para outro, como visto com as quedas de desempenho em conjuntos de dados menores. Além disso, há potencial para ampliar esses métodos para abordar outras áreas em visão computacional onde as oclusões são problemáticas.
No futuro, pesquisadores pretendem melhorar o processo de aumento e aprimorar as técnicas de conclusão de características para criar uma solução mais unificada para várias tarefas de visão.
Conclusão
No geral, o Feature Completion Transformer (FCFormer) apresenta uma abordagem eficaz para o problema da re-identificação de pessoas ocluídas. Combinando criativamente vários métodos e focando em cenários de oclusão realistas, oferece uma maneira promissora de melhorar a identificação de pessoas em ambientes complexos e lotados. À medida que a tecnologia avança, esses métodos podem se tornar ainda mais influentes em melhorar sistemas de segurança e monitoramento no dia a dia.
Título: Feature Completion Transformer for Occluded Person Re-identification
Resumo: Occluded person re-identification (Re-ID) is a challenging problem due to the destruction of occluders. Most existing methods focus on visible human body parts through some prior information. However, when complementary occlusions occur, features in occluded regions can interfere with matching, which affects performance severely. In this paper, different from most previous works that discard the occluded region, we propose a Feature Completion Transformer (FCFormer) to implicitly complement the semantic information of occluded parts in the feature space. Specifically, Occlusion Instance Augmentation (OIA) is proposed to simulates real and diverse occlusion situations on the holistic image. These augmented images not only enrich the amount of occlusion samples in the training set, but also form pairs with the holistic images. Subsequently, a dual-stream architecture with a shared encoder is proposed to learn paired discriminative features from pairs of inputs. Without additional semantic information, an occluded-holistic feature sample-label pair can be automatically created. Then, Feature Completion Decoder (FCD) is designed to complement the features of occluded regions by using learnable tokens to aggregate possible information from self-generated occluded features. Finally, we propose the Cross Hard Triplet (CHT) loss to further bridge the gap between complementing features and extracting features under the same ID. In addition, Feature Completion Consistency (FC$^2$) loss is introduced to help the generated completion feature distribution to be closer to the real holistic feature distribution. Extensive experiments over five challenging datasets demonstrate that the proposed FCFormer achieves superior performance and outperforms the state-of-the-art methods by significant margins on occluded datasets.
Autores: Tao Wang, Mengyuan Liu, Hong Liu, Wenhao Li, Miaoju Ban, Tuanyu Guo, Yidi Li
Última atualização: 2024-03-23 00:00:00
Idioma: English
Fonte URL: https://arxiv.org/abs/2303.01656
Fonte PDF: https://arxiv.org/pdf/2303.01656
Licença: https://creativecommons.org/licenses/by/4.0/
Alterações: Este resumo foi elaborado com a assistência da AI e pode conter imprecisões. Para obter informações exactas, consulte os documentos originais ligados aqui.
Obrigado ao arxiv pela utilização da sua interoperabilidade de acesso aberto.