Simple Science

Ciência de ponta explicada de forma simples

# Informática# Visão computacional e reconhecimento de padrões

Avanços no reconhecimento facial de desenho para foto

Novo método melhora a correspondência entre esboços desenhados à mão e imagens de retratos falados usando dados sintéticos.

― 6 min ler


Melhorando a TecnologiaMelhorando a Tecnologiade Correspondência deEsboçossintéticos.de esboços para fotos usando dadosUma nova abordagem para reconhecimento
Índice

Combinar Esboços feitos à mão com fotos é um desafio e tanto para sistemas de Reconhecimento Facial. Essa tarefa é importante pra polícia e investigações forenses. Os principais problemas vêm da falta de esboços rotulados pra treinamento e das grandes diferenças entre como os esboços e as fotos se parecem. Os rostos desenhados geralmente são baseados em memórias, o que pode torná-los menos precisos em comparação com fotos tiradas em condições controladas.

Pra resolver isso, apresentamos um novo método que usa tecnologia avançada pra criar uma ampla gama de esboços sintéticos a partir de imagens de fichas. Isso ajuda a melhorar a precisão dos sistemas de reconhecimento facial ao combinar esboços com fotos. Nosso método utiliza um processo que transforma gradualmente ruído aleatório em esboços claros, permitindo gerar muitos tipos diferentes de imagens de esboços associadas a fichas.

Os Desafios da Combinação de Esboços com Fichas

Os sistemas de reconhecimento facial evoluíram bastante, mas combinar esboços com fotos ainda é complicado. Os esboços forenses costumam ser incompletos e variam muito de pessoa pra pessoa, levando a diferenças significativas quando comparados com imagens fotográficas. As técnicas tradicionais pra combinar esboços e fotos geralmente dependem da extração de características específicas que se parecem com rostos. No entanto, a falta de dados de esboço disponíveis limitou esses métodos.

As crescentes preocupações sobre o uso ético de dados faciais reais no treinamento de sistemas levaram os pesquisadores a explorar a criação de Dados Sintéticos. Esses dados sintéticos podem servir como uma solução para a escassez de dados e ajudar a melhorar o desempenho dos sistemas de reconhecimento.

Usando Modelos de Difusão

Nossa abordagem aproveita modelos de difusão, que são eficazes na geração de imagens de alta qualidade a partir de dados complexos. Esses modelos funcionam refinando gradualmente ruído aleatório em imagens claras e ganharam popularidade pela capacidade de criar saídas diversas e detalhadas. Diferente das técnicas anteriores, que usavam principalmente Redes Adversariais Generativas (GANs), os modelos de difusão oferecem mais estabilidade e qualidade na geração de imagens.

Desenvolvemos nosso método, chamado CLIP4Sketch, que usa modelos de difusão pra gerar esboços realistas. Ao guiar o processo de geração com informações específicas sobre a identidade e o estilo, conseguimos criar esboços únicos que ainda refletem as características da pessoa.

O Processo CLIP4Sketch

Pra gerar esboços, começamos com uma imagem de ficha. Usamos duas ferramentas principais: uma pra analisar textos e imagens, e outra pra reconhecimento facial. A primeira ferramenta nos ajuda a garantir que os esboços gerados mantenham a identidade da ficha, enquanto a segunda ajuda a ajustar os esboços pra manter as principais características faciais.

Combinamos as informações das duas ferramentas, o que nos ajuda a criar uma representação única que captura as características essenciais da imagem junto com o estilo desejado descrito nas instruções. Por exemplo, podemos querer que o esboço seja uma “versão desenhada à mão” da ficha.

Depois de coletar e preparar os dados, conseguimos produzir muitos esboços em estilos variados a partir de uma única ficha. Essa habilidade nos permite criar um grande conjunto de dados de esboços com base em diferentes interpretações artísticas da mesma pessoa.

O Conjunto de Dados

Geramos um conjunto de dados sintético abrangente que inclui mais de 245.000 esboços conectados a mais de 27.000 identidades únicas. Cada identidade é representada em quatro estilos diferentes, oferecendo aos pesquisadores um rico recurso pra treinar e testar modelos de reconhecimento facial.

Esses novos esboços foram vitais pra melhorar o desempenho do nosso modelo, ajudando-o a se generalizar melhor entre diferentes estilos artísticos. Nosso conjunto de dados reflete cenários do mundo real, garantindo uma avaliação mais completa do sistema de reconhecimento facial.

Avaliação Experimental

Pra avaliar quão eficaz é a nossa abordagem, realizamos vários experimentos. Isso incluiu comparar a qualidade dos esboços gerados com esboços reais, avaliar como nosso sistema se sai com diferentes quantidades de dados sintéticos e comparar nossos resultados com os de outros métodos baseados em GAN.

Primeiro, analisamos o realismo dos esboços que criamos. Descobrimos que a distribuição das pontuações dos esboços reais era bem semelhante à dos nossos esboços gerados, indicando que nossa produção é realmente realista.

Em seguida, experimentamos diferentes proporções de dados sintéticos em nosso conjunto de treinamento e observamos como isso afetava o desempenho. Descobrimos que usar mais dados sintéticos geralmente melhorava a capacidade do modelo de combinar esboços com fotos. No entanto, esse aumento às vezes levava a uma queda no desempenho ao tentar combinar fotos do dia a dia, indicando um trade-off que precisa ser gerenciado com cuidado.

Comparação com Métodos Tradicionais

Nas nossas comparações com abordagens anteriores baseadas em GAN, nosso método superou esses modelos tanto em cenários de teste abertos quanto fechados. Nosso modelo mostrou uma melhor capacidade de combinar esboços com fichas, destacando os benefícios de usar dados sintéticos gerados por modelos de difusão.

Enquanto vimos melhorias, também reconhecemos que certos desafios ainda permanecem. Em alguns casos, nosso modelo teve dificuldade em combinar esboços com fotos quando eram particularmente diferentes dos casos típicos, especialmente em conjuntos de dados compostos por esboços feitos por testemunhas. Esses esboços frequentemente diferem significativamente de seus sujeitos e contêm distorções subjetivas que podem confundir os sistemas de reconhecimento.

Conclusão

Neste trabalho, introduzimos um método inovador que usa modelos de difusão pra gerar esboços diversos a partir de imagens de fichas. Ao mesclar as forças de diferentes técnicas de incorporação, garantimos que nossos esboços gerados reflitam com precisão as identidades das pessoas, permitindo variações estilísticas baseadas em descrições textuais.

Nossos testes extensivos mostraram que a incorporação de esboços sintéticos em conjuntos de treinamento melhora bastante o desempenho dos sistemas de reconhecimento facial na combinação de esboços com fichas. Essa abordagem atende às crescentes necessidades por dados diversos em reconhecimento facial enquanto aborda preocupações de privacidade relacionadas ao uso de imagens faciais reais.

Ao olhar pra frente, esse método pode ser aplicado a outras áreas que exigem combinação entre diferentes tipos de imagens. Nosso trabalho abre caminho pra soluções mais versáteis no campo do reconhecimento facial e além.

Fonte original

Título: CLIP4Sketch: Enhancing Sketch to Mugshot Matching through Dataset Augmentation using Diffusion Models

Resumo: Forensic sketch-to-mugshot matching is a challenging task in face recognition, primarily hindered by the scarcity of annotated forensic sketches and the modality gap between sketches and photographs. To address this, we propose CLIP4Sketch, a novel approach that leverages diffusion models to generate a large and diverse set of sketch images, which helps in enhancing the performance of face recognition systems in sketch-to-mugshot matching. Our method utilizes Denoising Diffusion Probabilistic Models (DDPMs) to generate sketches with explicit control over identity and style. We combine CLIP and Adaface embeddings of a reference mugshot, along with textual descriptions of style, as the conditions to the diffusion model. We demonstrate the efficacy of our approach by generating a comprehensive dataset of sketches corresponding to mugshots and training a face recognition model on our synthetic data. Our results show significant improvements in sketch-to-mugshot matching accuracy over training on an existing, limited amount of real face sketch data, validating the potential of diffusion models in enhancing the performance of face recognition systems across modalities. We also compare our dataset with datasets generated using GAN-based methods to show its superiority.

Autores: Kushal Kumar Jain, Steve Grosz, Anoop M. Namboodiri, Anil K. Jain

Última atualização: 2024-08-13 00:00:00

Idioma: English

Fonte URL: https://arxiv.org/abs/2408.01233

Fonte PDF: https://arxiv.org/pdf/2408.01233

Licença: https://creativecommons.org/licenses/by/4.0/

Alterações: Este resumo foi elaborado com a assistência da AI e pode conter imprecisões. Para obter informações exactas, consulte os documentos originais ligados aqui.

Obrigado ao arxiv pela utilização da sua interoperabilidade de acesso aberto.

Artigos semelhantes