Avanços na Estimativa de Idade Usando Imagens Faciais
Um novo método melhora a estimativa de idade a partir de imagens faciais, enquanto minimiza a influência da identidade.
― 6 min ler
Índice
Estimando a idade de uma pessoa a partir da imagem facial tá virando um tema bem interessante. Essa tarefa pode ser complicada porque conseguir um monte de imagens da mesma pessoa em diferentes idades é difícil. Em vez disso, a proposta aqui é usar conjuntos de dados disponíveis que mostram pessoas diferentes em várias idades. O objetivo é encontrar características que se relacionam com a idade, enquanto diminui a influência da identidade nos resultados.
O Desafio da Estimativa de Idade
Estimar a idade envolve analisar as características visuais presentes nas imagens faciais. Diferentes aspectos do rosto de uma pessoa, como rugas e textura da pele, mudam com a idade. Mas, como cada pessoa tem uma estrutura facial diferente, fica difícil destacar as características relacionadas à idade. A maioria dos métodos existentes usa conjuntos de dados grandes, mas reunir uma série de imagens da mesma pessoa ao longo da vida não é fácil.
Tradicionalmente, os métodos de estimativa de idade podem ser divididos em três categorias: classificação, regressão e ranking. Recentemente, novas técnicas como aprendizado auto-supervisionado foram introduzidas. No entanto, muitos desses métodos focam demais em identificar a pessoa em vez da idade, o que pode levar a imprecisões.
Como Funciona
O método proposto visa melhorar a estimativa de idade usando uma técnica chamada aprendizado contrastivo. Essa técnica compara imagens para enfatizar características relacionadas à idade, enquanto diminui as características ligadas à identidade. Para isso, a metodologia utiliza conjuntos de três imagens. Uma imagem serve como âncora, uma é similar em idade, mas diferente em identidade, e a terceira é diferente em ambas.
Ao olhar essas imagens juntas, o sistema tenta reduzir a influência da identidade na previsão da idade. Isso significa que ele pode focar em detalhes menores que indicam idade, em vez de se deixar levar por quem a pessoa é.
Conjuntos de Dados e Protocolos
O método foi testado em dois conjuntos de dados disponíveis publicamente: MORPH II e FG-NET. O conjunto de dados MORPH II tem mais de 55.000 imagens de cerca de 13.600 indivíduos, com idades variando de 16 a 77 anos. O FG-NET tem mais de 1.000 imagens de 82 indivíduos, com idades desde recém-nascidos até 69 anos. Esses conjuntos de dados foram usados em vários estudos, tornando-os ideais para comparar resultados.
Passos de Implementação
Antes da análise, todas as imagens foram alinhadas para garantir consistência. Um modelo chamado ResNet-18 foi usado para extrair características dessas imagens normalizadas. Durante o treinamento, várias ampliações de imagem, como flips aleatórios e transformações, ajudaram a melhorar a capacidade do modelo de generalizar.
O treinamento foi feito usando um otimizador chamado Adam, que ajusta as taxas de aprendizado durante o treinamento. O modelo foi avaliado com base no Erro Absoluto Médio (MAE), que mede a diferença entre as idades previstas e as idades reais.
Resultados e Comparações
Ao avaliar o desempenho do modelo proposto no conjunto de dados MORPH II, ele mostrou resultados promissores, alcançando um MAE baixo, o que significa que suas previsões de idade foram bem precisas. Comparado a outros métodos que precisam de grandes conjuntos de dados externos para treinamento, esse modelo se saiu bem usando apenas os dados disponíveis.
O desempenho no conjunto de dados FG-NET também foi forte. A principal conclusão é que o método funcionou bem em diferentes grupos etários sem precisar de dados adicionais, o que é uma grande vantagem.
Focando nas Características
Para garantir que o modelo estava focando nas características relacionadas à idade, os pesquisadores compararam a variância das características extraídas de rostos da mesma identidade. Uma variância menor indicaria que o modelo estava se baseando muito em características de identidade, o que não é desejável para uma tarefa de previsão de idade. O método demonstrou uma variância maior nas características extraídas em comparação com métodos tradicionais, sugerindo que ele realmente enfatizou detalhes relacionados à idade.
Análise Visual
Uma análise Grad-CAM foi realizada para visualizar quais partes do rosto o modelo focou durante a estimativa de idade. Essa análise mostrou que o modelo proposto mirou em regiões faciais específicas mais relacionadas à idade, como a testa em pessoas de meia-idade e áreas ao redor da boca em indivíduos mais jovens. Esse foco em características particulares indica que o modelo não depende apenas de estruturas faciais genéricas, mas busca sinais específicos de idade.
Avaliando Funções de Perda
A pesquisa também explorou como diferentes funções de perda impactaram o desempenho. Ao comparar várias combinações de funções de perda, ficou claro que certas configurações funcionavam melhor que outras. A interação entre a similaridade cosseno e a perda de margem tripla foi especialmente eficaz, permitindo que o modelo alcançasse melhores resultados em conjuntos de dados pequenos e grandes.
Através de testes rigorosos, o estudo constatou que usar uma combinação de ambos os tipos de funções de perda gerou o melhor desempenho. Em particular, modelos que incluíam perda de margem tripla mostraram melhor precisão, especialmente em conjuntos de dados menores.
Conclusão
Resumindo, o método introduzido para estimar a idade a partir de imagens faciais utiliza aprendizado contrastivo para reduzir efetivamente o impacto da identidade na previsão da idade. Ao focar nas características relevantes associadas ao envelhecimento, enquanto minimiza a influência de traços relacionados à identidade, essa abordagem demonstrou um bom desempenho em vários conjuntos de dados.
A pesquisa destacou que, ao selecionar cuidadosamente como comparar imagens e quais características enfatizar, é possível fazer previsões de idade precisas sem depender de conjuntos de dados extensos de rostos individuais. Esse método mostra potencial para futuras aplicações em áreas como segurança, marketing e saúde, onde entender a idade a partir de imagens pode fornecer insights valiosos.
Título: Age Prediction From Face Images Via Contrastive Learning
Resumo: This paper presents a novel approach for accurately estimating age from face images, which overcomes the challenge of collecting a large dataset of individuals with the same identity at different ages. Instead, we leverage readily available face datasets of different people at different ages and aim to extract age-related features using contrastive learning. Our method emphasizes these relevant features while suppressing identity-related features using a combination of cosine similarity and triplet margin losses. We demonstrate the effectiveness of our proposed approach by achieving state-of-the-art performance on two public datasets, FG-NET and MORPH-II.
Autores: Yeongnam Chae, Poulami Raha, Mijung Kim, Bjorn Stenger
Última atualização: 2023-08-22 00:00:00
Idioma: English
Fonte URL: https://arxiv.org/abs/2308.11896
Fonte PDF: https://arxiv.org/pdf/2308.11896
Licença: https://creativecommons.org/licenses/by/4.0/
Alterações: Este resumo foi elaborado com a assistência da AI e pode conter imprecisões. Para obter informações exactas, consulte os documentos originais ligados aqui.
Obrigado ao arxiv pela utilização da sua interoperabilidade de acesso aberto.