Avanços na Reidentificação de Pessoas Visível-Infravermelha
Um novo método melhora a correspondência entre imagens visíveis e infravermelhas.
― 6 min ler
Índice
A reidentificação de pessoas (ReID) trata de combinar imagens ou vídeos da mesma pessoa capturados por câmeras diferentes que não se sobrepõem na visão. Isso pode ser complicado por vários fatores, como mudanças na aparência da pessoa ou nas condições de iluminação quando as imagens foram tiradas. Uma abordagem mais nova chamada Reidentificação de Pessoas Visível-Infravermelha (V-I ReID) busca combinar indivíduos em imagens de luz visível e imagens infravermelhas. Esse método é mais desafiador porque lida com dois tipos diferentes de imagens que parecem muito diferentes entre si.
O Desafio
Na V-I ReID, as imagens visíveis fornecem detalhes em cores que ajudam a identificar os indivíduos, enquanto as imagens infravermelhas conseguem capturar o calor e são menos afetadas pelas variações de luz. O principal desafio aqui é que as distribuições de dados das imagens visíveis e infravermelhas são bem diferentes, tornando difícil combiná-las de forma eficaz. Embora algumas estratégias recentes tenham sido tentadas para melhorar essa combinação, ainda há necessidade de melhores maneiras de gerar ou selecionar imagens úteis que possam ajudar no processo.
A Solução Proposta
A abordagem de treinamento chamada Geração Adaptativa de Informação Intermediária Privilegiada (AGPI) foi introduzida para criar um espaço virtual que conecta dados visíveis e infravermelhos. Isso é feito gerando imagens especiais que incluem detalhes importantes compartilhados entre as imagens visíveis e infravermelhas, o que ajuda a treinar o sistema de reconhecimento de forma mais eficaz. Usando essas imagens geradas, o sistema pode aprender a identificar indivíduos de maneira mais precisa, mesmo quando as imagens originais parecem muito diferentes.
A AGPI funciona treinando um componente que gera imagens de luz visível que são semelhantes em aparência às imagens infravermelhas. Ao mesmo tempo, outra parte do sistema garante que as características extraídas tanto das imagens visíveis quanto das geradas sejam o mais semelhantes possível. Essa abordagem dupla ajuda a construir um sistema de reconhecimento mais robusto.
Importância do Domínio Intermediário
As Imagens Intermediárias geradas pelo método AGPI atuam como uma ponte entre os dados visíveis e infravermelhos. Elas ajudam a reduzir as lacunas causadas por diferenças significativas entre os dois tipos de imagens. Ao promover um espaço de características compartilhado, o sistema pode aproveitar as forças de ambas as modalidades, melhorando a precisão da reidentificação.
Vantagens do AGPI
Treinamento Aprimorado: As imagens geradas fornecem informações detalhadas adicionais que ajudam o sistema a aprender melhor.
Espaço Não Específico de Modalidade: O processo de treinamento foca nos aspectos comuns entre as imagens visíveis e infravermelhas, permitindo que o modelo generalize melhor.
Sem Carga Extra Durante a Inferência: Embora o AGPI exija processamento adicional durante o treinamento para gerar essas imagens intermediárias, uma vez que o modelo esteja treinado, não precisa gerar essas imagens durante o uso real. Essa eficiência é crucial para aplicações em tempo real.
Trabalhos Relacionados
Muitas estratégias existentes para a V-I ReID tentaram enfrentar o principal desafio das diferentes distribuições de dados usando diversas abordagens. Algumas delas exploram o uso de modelos generativos para criar imagens que podem ajudar a conectar os dados visíveis e infravermelhos, enquanto outras se concentram em encontrar características comuns entre as duas modalidades por meio de treinamento conjunto. No entanto, apesar desses esforços, alcançar um sistema de identificação verdadeiramente eficaz entre modalidades continua sendo um desafio.
O que Faz o AGPI Diferente
O AGPI se destaca porque cria diretamente imagens intermediárias que ajudam a definir um terreno comum para imagens visíveis e infravermelhas. Em vez de apenas depender de imagens existentes, o AGPI gera de forma inovadora novos dados que são especificamente projetados para melhorar o processo de identificação. A abordagem é baseada em treinamento adversarial, onde o gerador deve criar imagens que não apenas pareçam semelhantes às imagens infravermelhas, mas também mantenham características identificadoras importantes das imagens visíveis.
Design do Sistema
O modelo AGPI inclui três componentes principais:
Módulo de Embedding de Características: Esta parte extrai características tanto das imagens visíveis quanto das intermediárias. O objetivo é tornar as características o mais semelhantes possível entre esses dois tipos de dados.
Módulo de Geração: Este módulo foca em criar as imagens intermediárias a partir das imagens visíveis, permitindo que o modelo aprenda como conectar as diferenças entre as duas modalidades.
Discriminador de ID-Modality: Este componente trabalha para garantir que as imagens intermediárias geradas sejam classificadas corretamente, ajudando o gerador a melhorar sua saída ao longo do tempo.
Metodologia Experimental
A eficácia do método AGPI foi testada usando dois conjuntos de dados bem conhecidos, chamados SYSU-MM01 e RegDB. Esses conjuntos de dados apresentam uma variedade de imagens visíveis e infravermelhas de indivíduos. Vários testes foram realizados para medir o quão bem o AGPI se saiu em comparação com métodos existentes. As métricas de avaliação utilizadas incluíram Características de Correspondência Acumulada (CMC) e Precisão Média (mAP), que avaliam a precisão do processo de identificação.
Resultados de Desempenho
Os resultados experimentais mostraram que o AGPI superou consistentemente os métodos atuais líderes para a ReID de pessoas V-I. Mesmo incluindo a geração extra de imagens durante o treinamento, não adiciona carga computacional extra durante a fase de identificação. As melhorias em precisão e acurácia foram significativas, demonstrando o potencial do AGPI para aplicações práticas em situações do mundo real.
Conclusão
O método AGPI representa um grande avanço na área de reidentificação de pessoas, especialmente quando se trabalha com diferentes modalidades de imagem. Ao gerar efetivamente imagens intermediárias que conectam os dados visíveis e infravermelhos, o AGPI melhora o treinamento e o desempenho dos sistemas de reconhecimento, tornando-os mais eficazes na identificação de indivíduos em ambientes variados. A capacidade de fazer isso sem incorrer em custos computacionais adicionais durante o processo de identificação real ressalta seu potencial para aplicações do mundo real.
Título: Adaptive Generation of Privileged Intermediate Information for Visible-Infrared Person Re-Identification
Resumo: Visible-infrared person re-identification seeks to retrieve images of the same individual captured over a distributed network of RGB and IR sensors. Several V-I ReID approaches directly integrate both V and I modalities to discriminate persons within a shared representation space. However, given the significant gap in data distributions between V and I modalities, cross-modal V-I ReID remains challenging. Some recent approaches improve generalization by leveraging intermediate spaces that can bridge V and I modalities, yet effective methods are required to select or generate data for such informative domains. In this paper, the Adaptive Generation of Privileged Intermediate Information training approach is introduced to adapt and generate a virtual domain that bridges discriminant information between the V and I modalities. The key motivation behind AGPI^2 is to enhance the training of a deep V-I ReID backbone by generating privileged images that provide additional information. These privileged images capture shared discriminative features that are not easily accessible within the original V or I modalities alone. Towards this goal, a non-linear generative module is trained with an adversarial objective, translating V images into intermediate spaces with a smaller domain shift w.r.t. the I domain. Meanwhile, the embedding module within AGPI^2 aims to produce similar features for both V and generated images, encouraging the extraction of features that are common to all modalities. In addition to these contributions, AGPI^2 employs adversarial objectives for adapting the intermediate images, which play a crucial role in creating a non-modality-specific space to address the large domain shifts between V and I domains. Experimental results conducted on challenging V-I ReID datasets indicate that AGPI^2 increases matching accuracy without extra computational resources during inference.
Autores: Mahdi Alehdaghi, Arthur Josi, Pourya Shamsolmoali, Rafael M. O. Cruz, Eric Granger
Última atualização: 2023-07-06 00:00:00
Idioma: English
Fonte URL: https://arxiv.org/abs/2307.03240
Fonte PDF: https://arxiv.org/pdf/2307.03240
Licença: https://creativecommons.org/licenses/by/4.0/
Alterações: Este resumo foi elaborado com a assistência da AI e pode conter imprecisões. Para obter informações exactas, consulte os documentos originais ligados aqui.
Obrigado ao arxiv pela utilização da sua interoperabilidade de acesso aberto.