Simple Science

Ciência de ponta explicada de forma simples

# Informática# Visão computacional e reconhecimento de padrões# Computação e linguagem

Estimativa de Idade Avançada com Aprendizado Contrastivo de Máscaras em Múltiplas Visões

Um novo método melhora a previsão de idade usando características faciais e redes neurais gráficas.

― 10 min ler


Revolucionando asRevolucionando astécnicas de estimativa deidadefazer previsões de idade melhores.Novos métodos usam redes de grafos pra
Índice

Estimar a idade de uma pessoa pelas características faciais tem várias utilidades no nosso dia a dia, como segurança, marketing e redes sociais. Mas, prever a idade com precisão usando imagens faciais pode ser complicado, porque a idade pode ser influenciada por vários fatores, como gênero, raça, expressões faciais e até como a pessoa está se vestindo ou posando.

Nos últimos anos, pesquisadores tentaram várias abordagens para estimar a idade. Métodos mais antigos geralmente usavam técnicas manuais para extrair características das imagens, mas essas técnicas não funcionavam bem com imagens do mundo real, que são variadas e complexas. Muitos métodos novos usam técnicas avançadas, como Redes Neurais Convolucionais (CNNs), para entender melhor os rostos e estimar idades de forma mais confiável. Embora as CNNs tenham trazido melhorias, elas podem ter dificuldades com as formas e estruturas irregulares dos rostos.

Este documento apresenta uma nova abordagem chamada Rede Neural Convolucional Gráfica com Aprendizado Contrastivo de Máscara Multivista (MMCL-GCN), que busca facilitar e aumentar a precisão da estimativa de idade. Esse método incorpora várias etapas, incluindo a Extração de Características das imagens e a Estimativa de Idades de maneira mais eficiente.

A Tarefa de Estimativa de Idade

O objetivo principal da estimativa de idade é prever a idade de uma pessoa usando suas características faciais. Essa tarefa é útil em várias áreas, incluindo segurança pública e marketing. No entanto, a estimativa de idade pode ser complexa devido a muitos fatores que afetam a aparência, como gênero, raça, expressões faciais e até o ambiente ao fundo.

Métodos tradicionais se baseavam em cinco abordagens principais: classificação, regressão, distribuição de rótulos, classificação e métodos híbridos. Esses métodos mais antigos geralmente dependiam de modelos feitos manualmente e técnicas básicas de processamento de imagem para extrair características e prever idades usando técnicas de aprendizado de máquina, como árvores de decisão.

Com o avanço da tecnologia, a introdução das CNNs permitiu um reconhecimento melhor dos rostos e previsões de idade mais confiáveis. Pesquisadores começaram a usar CNNs de várias maneiras, como empregando regressores locais para definir dados de idade e usando florestas de regressão para melhores estimativas de idade. Embora esses métodos mais novos tenham melhorado bastante o desempenho, ainda tinham limitações na modelagem de características faciais complexas.

A Evolução dos Métodos de Estimativa de Idade

Com o tempo, a ascensão dos Transformers em tarefas visuais levou a abordagens ainda mais novas para a estimativa de idade. Pesquisadores começaram a desenvolver modelos que utilizavam vários aspectos das características faciais de forma mais eficaz. Por exemplo, vários estudos propuseram usar métodos como FAT espacial para modelar atributos faciais e aprender a partir de patches locais para capturar melhor informações faciais importantes.

Enquanto as CNNs e Transformers mostraram resultados promissores na estimativa de idade, elas geralmente operam sob o espaço de dados estruturados tradicionais, o que pode limitar sua flexibilidade ao analisar imagens faciais complexas.

O Papel das Redes Neurais Gráficas

As Redes Neurais Gráficas (GNNs) surgiram como uma solução potencial para lidar com os desafios apresentados pelos métodos tradicionais. As GNNs podem representar imagens de forma mais natural, focando em pontos faciais-chave em vez de tratar apenas imagens como uma grade. As GNNs permitem uma melhor extração de relacionamentos complexos entre características faciais, o que é especialmente relevante para tarefas de estimativa de idade.

Ao dividir uma imagem em segmentos menores, as GNNs podem capturar melhor informações contextuais importantes e relacionamentos entre características faciais. Essa flexibilidade permite que as GNNs lidem com imagens complexas de maneiras que as CNNs e Transformers não conseguem.

A Nova Abordagem MMCL-GCN

Para melhorar a estimativa de idade, o MMCL-GCN combina as forças das GNNs com técnicas de Aprendizado Auto-Supervisionado. Essa nova estrutura tem duas principais etapas: extração de características e estimativa de idade.

Extração de Características

Na etapa de extração de características, o MMCL-GCN usa uma estrutura gráfica para representar imagens faciais como entrada. Este documento apresenta um novo método chamado Aprendizado Contrastivo de Máscara Multivista (MMCL), que ajuda a aprender as características complexas e semânticas presentes nas imagens faciais. O MMCL envolve o uso de uma rede siamese assimétrica para reconstruir informações ausentes do gráfico original.

A estrutura de codificador-decodificador online ajuda a recuperar as características necessárias, enquanto o codificador alvo auxilia no aprendizado de representações importantes. Essa combinação resulta em um processo de extração de características mais poderoso e eficiente.

Para tornar o processo de extração de características mais eficaz, o MMCL também adota várias estratégias de aumento para garantir que o codificador online e o codificador alvo trabalhem bem juntos. Isso permite que o modelo aprenda características mais abrangentes.

Estimativa de Idade

Uma vez que as características são extraídas, o modelo avança para a etapa de estimativa de idade. Esta etapa usa uma máquina de aprendizado extremo de múltiplas camadas (ML-IELM) que pode utilizar efetivamente as características extraídas para prever a idade. Um classificador é usado para categorizar a idade em grupos, enquanto um regressor é usado para fornecer uma estimativa de idade exata.

A abordagem MMCL-GCN demonstrou que pode reduzir erros na estimativa de idade ao aprender efetivamente as características importantes relacionadas à idade presentes nas imagens faciais.

Trabalhos Relacionados

No campo do aprendizado auto-supervisionado, dois métodos importantes chamaram bastante atenção: aprendizado contrastivo e modelagem de imagem mascarada.

Aprendizado Contrastivo

O aprendizado contrastivo ajuda a criar representações a partir de dados não rotulados, facilitando tarefas posteriores. Ele opera aproximando pontos de dados semelhantes e afastando os diferentes. Vários trabalhos fundamentais em aprendizado contrastivo exploraram diferentes estratégias para melhorar o desempenho, incluindo o uso de bancos de memória para armazenar amostras negativas e técnicas de aumento de dados fortes.

Embora o aprendizado contrastivo tenha mostrado potencial, ele frequentemente foca em características globais, negligenciando informações locais que podem ser cruciais em tarefas como estimativa de idade.

Modelagem de Imagem Mascarada

A modelagem de imagem mascarada, inspirada em técnicas usadas em processamento de linguagem natural, visa reconstruir partes faltantes de imagens. Ao aprender a prever essas seções ausentes, o modelo desenvolve uma melhor compreensão das características locais. No entanto, foi notado que a modelagem mascarada tende a faltar foco na relação entre diferentes imagens, o que pode limitar sua eficácia.

Nos últimos anos, houve tentativas de combinar aprendizado contrastivo e modelagem mascarada para extrair melhor as características. Essa sinergia visa aproveitar os pontos fortes dos dois métodos, resultando em um modelo de aprendizado de representação mais robusto.

O Uso de GNNs

As GNNs ganharam destaque como ferramentas eficazes para estudar dados estruturados em grafos. Através de sua capacidade de agregar informações de forma iterativa e atualizar representações, as GNNs alcançaram resultados excepcionais em tarefas como classificação de nós e previsão de links. No contexto da estimativa de idade, as GNNs permitem análises mais flexíveis e abrangentes das características faciais, especialmente na compreensão das relações e conexões entre elas.

A Estrutura do MMCL-GCN

O MMCL-GCN consiste em duas etapas principais: extração de características e estimativa de idade.

Extração de Características

Durante a extração de características, as imagens de entrada são representadas através de uma estrutura gráfica. O mecanismo MMCL emprega várias vistas para aprender os aspectos estruturais e semânticos complexos das imagens faciais. A rede siamese assimétrica ajuda a reconstruir qualquer informação faltante, permitindo uma extração robusta de características latentes.

A estrutura de codificador-decodificador online foca em capturar características locais, enquanto o codificador alvo aprimora as representações necessárias para um aprendizado contrastivo eficaz. Juntos, esses componentes trabalham para criar um método poderoso de extração de características que pode se adaptar a diferentes tipos de imagens faciais.

Estimativa de Idade

Na etapa de estimativa de idade, as características coletadas do codificador online são alimentadas no modelo ML-IELM. Essa estrutura é excepcionalmente adequada para lidar com dados de alta dimensão, tornando-se eficaz tanto para tarefas de classificação quanto de regressão. O ML-IELM pode classificar características faciais em grupos etários específicos e fornecer previsões de idade precisas.

A sinergia da estrutura MMCL com o ML-IELM permite capturar relacionamentos complexos entre diferentes características relacionadas à idade nas imagens faciais, resultando em um processo de estimativa de idade mais eficaz e preciso.

Avaliação Experimental

A eficácia da abordagem MMCL-GCN foi validada por meio de extensos experimentos em múltiplos conjuntos de dados, incluindo IMDB-WIKI, MORPH-II, Adience Benchmark e LAP-2016. Esses conjuntos de dados fornecem uma base sólida para comparar o modelo proposto com métodos de última geração.

Visão Geral dos Conjuntos de Dados

  • IMDB-WIKI: Este conjunto é um dos maiores para estimativa de idade, com mais de 460.000 imagens de rostos extraídas do IMDB e Wikipedia. Embora seja usado principalmente para pré-treinamento, inclui ruídos variados devido a diferentes expressões faciais e fundos.

  • MORPH-II: Este conjunto amplamente utilizado contém mais de 55.000 imagens de 13.000 indivíduos. Ele oferece representações de idade diversificadas, tornando-se valioso para treinamento e avaliação.

  • Adience Benchmark: Este conjunto possui mais de 26.000 imagens tiradas de cenários da vida real, apresentando desafios em termos de pose, iluminação e ruídos.

  • LAP-2016: Este conjunto consiste em cerca de 7.591 imagens, rotuladas para estimativa de idade. Ajuda a avaliar o desempenho dos modelos em diferentes intervalos de idade.

Processo de Treinamento e Ajuste Fino

O modelo MMCL-GCN passa primeiro por um pré-treinamento não supervisionado no conjunto de dados ImageNet-1K. Depois disso, é treinado de forma supervisionada usando o conjunto IMDB-WIKI. Várias técnicas, incluindo medidas de dropout, garantem que o modelo seja bem otimizado durante o treinamento e ajuste fino.

Critérios de Avaliação

O desempenho do modelo é avaliado usando Erro Absoluto Médio (MAE), Pontuação Cumulativa (CS) e Pontuação Normal (N-score). Essas métricas ajudam a avaliar a precisão e confiabilidade das previsões de idade feitas pelo MMCL-GCN.

Resultados e Análise

Os resultados obtidos a partir dos experimentos indicam que o modelo MMCL-GCN supera significativamente muitos métodos tradicionais na estimativa de idade, alcançando métricas competitivas em vários conjuntos de dados. Esse sucesso pode ser atribuído à combinação única de extração de características com base em GNN e o processo de estimativa de idade ML-IELM.

O modelo mostra um desempenho forte no conjunto de dados MORPH-II devido às suas robustas capacidades de extração de características. Da mesma forma, demonstra resultados impressionantes no conjunto de dados LAP-2016, onde o rigoroso processo de rotulagem permite uma avaliação mais confiável.

Conclusão

A introdução do MMCL-GCN oferece uma solução inovadora para a tarefa complexa de estimar idades a partir de imagens faciais. Ao combinar os benefícios das redes neurais gráficas com técnicas de aprendizado eficazes, este método fornece uma estrutura poderosa e flexível para extrair características relevantes e prever idades com precisão.

Pesquisas em andamento buscam explorar ainda mais as capacidades das GNNs em visão computacional, especialmente em aplicações além da estimativa de idade. Este trabalho, apoiado por várias fundações de pesquisa, destaca o potencial para avanços contínuos na área.

Fonte original

Título: A Multi-view Mask Contrastive Learning Graph Convolutional Neural Network for Age Estimation

Resumo: The age estimation task aims to use facial features to predict the age of people and is widely used in public security, marketing, identification, and other fields. However, the features are mainly concentrated in facial keypoints, and existing CNN and Transformer-based methods have inflexibility and redundancy for modeling complex irregular structures. Therefore, this paper proposes a Multi-view Mask Contrastive Learning Graph Convolutional Neural Network (MMCL-GCN) for age estimation. Specifically, the overall structure of the MMCL-GCN network contains a feature extraction stage and an age estimation stage. In the feature extraction stage, we introduce a graph structure to construct face images as input and then design a Multi-view Mask Contrastive Learning (MMCL) mechanism to learn complex structural and semantic information about face images. The learning mechanism employs an asymmetric siamese network architecture, which utilizes an online encoder-decoder structure to reconstruct the missing information from the original graph and utilizes the target encoder to learn latent representations for contrastive learning. Furthermore, to promote the two learning mechanisms better compatible and complementary, we adopt two augmentation strategies and optimize the joint losses. In the age estimation stage, we design a Multi-layer Extreme Learning Machine (ML-IELM) with identity mapping to fully use the features extracted by the online encoder. Then, a classifier and a regressor were constructed based on ML-IELM, which were used to identify the age grouping interval and accurately estimate the final age. Extensive experiments show that MMCL-GCN can effectively reduce the error of age estimation on benchmark datasets such as Adience, MORPH-II, and LAP-2016.

Autores: Yiping Zhang, Yuntao Shou, Tao Meng, Wei Ai, Keqin Li

Última atualização: 2024-07-23 00:00:00

Idioma: English

Fonte URL: https://arxiv.org/abs/2407.16234

Fonte PDF: https://arxiv.org/pdf/2407.16234

Licença: https://creativecommons.org/licenses/by/4.0/

Alterações: Este resumo foi elaborado com a assistência da AI e pode conter imprecisões. Para obter informações exactas, consulte os documentos originais ligados aqui.

Obrigado ao arxiv pela utilização da sua interoperabilidade de acesso aberto.

Mais de autores

Artigos semelhantes