Avanços na Reidentificação de Pessoas com Diff-ID
O Diff-ID melhora o reconhecimento de pessoas gerando imagens de treino diversas.
― 8 min ler
Índice
A re-identificação de pessoas (Re-ID) é um processo na visão computacional que ajuda a reconhecer indivíduos em diferentes Ângulos de Câmera. Isso é super útil em áreas como segurança e robótica. Mas, a Re-ID enfrenta desafios grandes por causa das diferenças nas poses humanas e nos ângulos das imagens. Esses fatores podem mudar a aparência da pessoa nas fotos, dificultando a identificação consistente pelos modelos.
Um dos principais problemas é que a maioria dos conjuntos de dados de Re-ID não captura uma variedade ampla de poses e ângulos. Desenvolver um modelo que consiga reconhecer uma pessoa com precisão, apesar dessas variações, é bem difícil. As técnicas atuais muitas vezes tentam aumentar a variedade dos dados de treinamento através de métodos chamados de Aumento de Dados. Esses métodos mudam imagens existentes para criar novas, mas não resolvem efetivamente o viés de pose porque usam principalmente poses que já estão nos dados.
Esse artigo apresenta um novo método chamado Diff-ID. Essa abordagem tem como objetivo criar um conjunto de dados de treinamento mais diversificado gerando imagens de pessoas em diferentes poses e ângulos de câmera que não estão nos dados originais. Ao usar modelos avançados chamados de Modelos de Difusão pré-treinados, conseguimos fornecer uma gama maior de dados de treinamento, melhorando, em última análise, o funcionamento dos modelos de Re-ID.
Contexto
Na re-identificação de pessoas, o objetivo é rastrear indivíduos através de imagens tiradas de várias câmeras que podem não se sobrepor nos seus campos de visão. Essa tarefa é particularmente difícil porque as imagens da mesma pessoa podem parecer bem diferentes dependendo da pose ou do ângulo em que a foto foi tirada. Para lidar efetivamente com esse problema, é essencial ter conjuntos de dados de treinamento ricos que capturem uma ampla gama de poses corporais e ângulos de câmera.
No entanto, muitos dos conjuntos de dados disponíveis atualmente são limitados. Muitas vezes, eles incluem apenas alguns ângulos de câmera e poses, o que limita a habilidade do modelo de generalizar seu aprendizado para novas situações. Além disso, rotular cada instância em várias câmeras é muito trabalhoso e desafiador, resultando em conjuntos de dados que não representam totalmente as variações vistas em cenários da vida real.
Para combater esses desafios, esforços anteriores foram feitos para melhorar os dados de treinamento através de técnicas de aumento. Nos primeiros métodos, ajustes simples foram utilizados, como mudar tamanhos de imagem ou inverter horizontalmente. Métodos mais recentes têm utilizado modelos avançados como Redes Adversariais Generativas (GANs) para criar novas imagens. No entanto, esses modelos muitas vezes dependem de poses existentes, o que limita sua eficácia em lidar com viés de pose.
Neste artigo, propomos um novo método chamado Diff-ID, que usa um modelo de difusão para gerar uma variedade maior de poses e pontos de vista. Isso nos permite preencher as lacunas nos conjuntos de dados existentes, melhorando assim a generalização e robustez do modelo em relação às variações causadas por diferentes poses e ângulos de câmera.
O Método Diff-ID
O Diff-ID funciona capturando poses e pontos de vista de câmera que não estão bem representados no conjunto de dados de treinamento original. Ele usa um modelo especializado chamado Modelo SMPL para reunir informações sobre poses humanas e profundidade-uma forma indireta de entender como a câmera está posicionada em relação à pessoa.
A ideia chave é combinar a pose humana, o ponto de vista da câmera e a identidade de uma imagem de referência. Ao fazer isso, conseguimos gerar imagens realistas que mostram a mesma pessoa em várias poses e a partir de diferentes ângulos de câmera. Isso ajuda a criar um conjunto de dados de treinamento mais diversificado que pode ajudar os sistemas de Re-ID a aprenderem melhor e de forma mais precisa.
Estratégia de Aumento de Dados
O núcleo da nossa abordagem envolve uma estratégia de aumento de dados em duas etapas. Primeiro, coletamos poses de várias fontes externas, como vídeos de dança, que introduzem uma gama mais ampla de movimentos corporais. Em seguida, geramos imagens usando essas poses e selecionamos ângulos de câmera a partir de uma distribuição uniforme em todo o intervalo, em vez de apenas aqueles presentes nos dados de treinamento.
A combinação dessas duas etapas nos permite criar um conjunto de dados mais rico para treinar os modelos de Re-ID. Isso minimiza as variações nas aparências causadas pela pose humana ou pelo ponto de vista da câmera, ajudando os modelos a generalizarem melhor ao identificar indivíduos.
Aproveitando Modelos de Difusão Pré-treinados
Para executar nossa estratégia de aumento, aproveitamos as capacidades dos modelos de difusão estáveis. Esses modelos foram treinados em conjuntos de dados vastos, permitindo que gerem imagens de alta qualidade com um realismo impressionante. Especificamente, usamos a informação de profundidade fornecida pelo modelo SMPL junto com as informações de pose para criar imagens convincentes que refletem com precisão a identidade da pessoa na imagem de referência.
O processo consiste em renderizar as formas do corpo usando o modelo SMPL, que gera esqueletos e mapas que indicam profundidade e detalhes da superfície. Essas condições são então inseridas no modelo Diff-ID, que usa esses elementos para produzir imagens com poses e pontos de vista variados. Ao manter a consistência da identidade, conseguimos garantir que a pessoa na imagem gerada se pareça com a imagem de referência.
Configuração Experimental
Realizamos experimentos em dois conjuntos de dados de Re-ID amplamente usados, os conjuntos Market-1501 e DukeMTMC-reID, para validar nosso método. Para avaliar a eficácia, utilizamos métricas padrão, incluindo características de correspondência cumulativa e precisão média. Cada experimento envolveu treinar o modelo de Re-ID em conjuntos de dados aumentados, que incluíam nossas imagens geradas combinadas com o conjunto de dados original.
Para criar nossos conjuntos de dados aumentados, geramos um número significativo de imagens usando o Diff-ID e as incluímos em nossos conjuntos de treinamento. Por exemplo, no DukeMTMC-reID, adicionamos cerca de 49.000 imagens geradas, resultando em um total de 30.522 imagens de treinamento. Para o Market-1501, adicionamos cerca de 45.500 imagens, totalizando 26.936. Essa abordagem nos permitiu aumentar a diversidade e a quantidade dos dados de treinamento significativamente.
Resultados e Discussão
Os resultados dos nossos experimentos indicam que a estratégia de aumento Diff-ID melhora significativamente o desempenho dos modelos de Re-ID. Em nossas avaliações, observamos ganhos notáveis na precisão da identificação ao testar com conjuntos de dados aumentados em comparação com aqueles sem aumento. Nossas descobertas destacam como lidar com o viés de pose e ponto de vista melhora efetivamente as capacidades de aprendizado dos sistemas de Re-ID.
Ganhos de Performance com Aumento de Dados
Comparamos nosso método com técnicas tradicionais de aumento de dados. Nossos resultados mostraram que o Diff-ID teve um desempenho melhor do que abordagens anteriores, especialmente em conjuntos de dados onde o viés de ponto de vista da câmera era um problema maior. As melhorias foram claras, mostrando a necessidade de estratégias de aumento abrangentes que enfrentem o viés de frente.
Os estudos de ablação realizados também provaram a importância individual do aumento de pose humana e do aumento de ponto de vista da câmera na melhoria do desempenho geral dos modelos. Cada tipo de aumento contribuiu positivamente, sublinhando seus papéis complementares em lidar com os desafios encontrados nas tarefas de Re-ID.
Comparação Visual dos Dados Gerados
Para demonstrar ainda mais as capacidades do nosso método, fornecemos comparações visuais das imagens geradas em relação às produzidas por métodos baseados em GAN. Nossa abordagem gerou consistentemente imagens mais realistas, mantendo as identidades de indivíduos de referência enquanto produzia variações em poses e ângulos de câmera.
Essa evolução para a geração de imagens de alta fidelidade destaca as vantagens de utilizar grandes modelos pré-treinados, que possuem uma riqueza de conhecimento geral, permitindo melhor manuseio das complexidades visuais. Nossas imagens geradas não apenas capturaram diferentes poses, mas fizeram isso garantindo que as características de identidade permanecessem intactas.
Conclusão
Em resumo, apresentamos o Diff-ID, uma nova abordagem para o aumento de dados em tarefas de re-identificação de pessoas. Ao utilizar efetivamente modelos de difusão pré-treinados e focar na diversificação das distribuições de pose humana e ponto de vista da câmera, criamos uma base sólida para melhorar o desempenho da Re-ID. Nossos resultados experimentais comprovam que a introdução de imagens realistas de poses e ângulos variados pode beneficiar muito o treinamento dos modelos de Re-ID.
O sucesso do nosso método reafirma a necessidade de estratégias inovadoras que abordem os viéses fundamentais nos conjuntos de dados existentes, abrindo caminho para sistemas de reconhecimento de pessoas mais precisos e confiáveis. À medida que o campo continua a crescer, os princípios estabelecidos pelo Diff-ID podem inspirar futuras pesquisas e aplicações, levando, em última análise, a uma tecnologia aprimorada para identificar indivíduos em diversos ambientes.
Título: Pose-dIVE: Pose-Diversified Augmentation with Diffusion Model for Person Re-Identification
Resumo: Person re-identification (Re-ID) often faces challenges due to variations in human poses and camera viewpoints, which significantly affect the appearance of individuals across images. Existing datasets frequently lack diversity and scalability in these aspects, hindering the generalization of Re-ID models to new camera systems. We propose Pose-dIVE, a novel data augmentation approach that incorporates sparse and underrepresented human pose and camera viewpoint examples into the training data, addressing the limited diversity in the original training data distribution. Our objective is to augment the training dataset to enable existing Re-ID models to learn features unbiased by human pose and camera viewpoint variations. To achieve this, we leverage the knowledge of pre-trained large-scale diffusion models. By conditioning the diffusion model on both the human pose and camera viewpoint concurrently through the SMPL model, we generate training data with diverse human poses and camera viewpoints. Experimental results demonstrate the effectiveness of our method in addressing human pose bias and enhancing the generalizability of Re-ID models compared to other data augmentation-based Re-ID approaches.
Autores: Inès Hyeonsu Kim, JoungBin Lee, Woojeong Jin, Soowon Son, Kyusun Cho, Junyoung Seo, Min-Seop Kwak, Seokju Cho, JeongYeol Baek, Byeongwon Lee, Seungryong Kim
Última atualização: 2024-10-15 00:00:00
Idioma: English
Fonte URL: https://arxiv.org/abs/2406.16042
Fonte PDF: https://arxiv.org/pdf/2406.16042
Licença: https://creativecommons.org/licenses/by/4.0/
Alterações: Este resumo foi elaborado com a assistência da AI e pode conter imprecisões. Para obter informações exactas, consulte os documentos originais ligados aqui.
Obrigado ao arxiv pela utilização da sua interoperabilidade de acesso aberto.