Avances en la estimación de edad usando imágenes faciales
Un nuevo método mejora la estimación de edad a partir de imágenes faciales mientras minimiza la influencia de la identidad.
― 6 minilectura
Tabla de contenidos
Estimar la edad de una persona a partir de su imagen facial es un área de interés que está creciendo. Esta tarea puede ser complicada porque conseguir un gran conjunto de imágenes de la misma persona a diferentes edades es difícil. En cambio, la propuesta aquí se centra en usar conjuntos de datos disponibles que muestran a diferentes personas a varias edades. El objetivo es encontrar características relacionadas con la edad mientras se reduce la influencia de la identidad en los resultados.
El Reto de la Estimación de Edad
La estimación de edad implica analizar las características visuales presentes en las imágenes faciales. Diferentes aspectos de la cara de una persona, como arrugas y textura de la piel, cambian con la edad. Sin embargo, diferentes personas tienen estructuras faciales distintas, lo que hace complicado destacar características relacionadas con la edad. La mayoría de los métodos existentes utilizan grandes conjuntos de datos, pero reunir una serie de imágenes de la misma persona a lo largo de su vida no es fácil.
Tradicionalmente, los métodos de estimación de edad se pueden dividir en tres categorías: clasificación, regresión y ranking. Recientemente, se han introducido nuevas técnicas como el aprendizaje auto-supervisado. Sin embargo, muchos de estos métodos se enfocan demasiado en identificar a una persona en lugar de su edad, lo que puede llevar a inexactitudes.
Cómo Funciona
El método propuesto busca mejorar la estimación de edad usando una técnica llamada Aprendizaje Contrastivo. Esta técnica compara imágenes para enfatizar las características relacionadas con la edad mientras minimiza las características vinculadas a la identidad. Para lograr esto, el método utiliza conjuntos de tres imágenes. Una imagen actúa como ancla, otra es similar en edad pero diferente en identidad, y la tercera es diferente en edad e identidad.
Al mirar estas imágenes juntas, el sistema intenta reducir la influencia de la identidad en la predicción de edad. Esto significa que puede centrarse en detalles más pequeños que indican la edad, en lugar de dejarse llevar por quién es la persona.
Conjuntos de Datos y Protocolos
El método se probó en dos conjuntos de datos disponibles públicamente: MORPH II y FG-NET. El conjunto de datos MORPH II contiene más de 55,000 imágenes de aproximadamente 13,600 individuos, con edades que varían entre 16 y 77 años. FG-NET tiene más de 1,000 imágenes de 82 individuos, con edades desde recién nacidos hasta 69 años. Estos conjuntos de datos se han utilizado en varios estudios, lo que los hace ideales para comparar resultados.
Pasos de Implementación
Antes del análisis, todas las imágenes se alinearon para asegurar consistencia. Se utilizó un modelo llamado ResNet-18 para extraer características de estas imágenes normalizadas. Durante el entrenamiento, varias modificaciones de imagen, como giros aleatorios y transformaciones, ayudaron a mejorar la capacidad del modelo para generalizar.
El entrenamiento se llevó a cabo utilizando un optimizador llamado Adam, que ajusta las tasas de aprendizaje durante el proceso. El modelo se evaluó en base al Error Absoluto Medio (MAE), que mide la diferencia entre las edades predichas y las edades reales.
Resultados y Comparaciones
Al evaluar el rendimiento del modelo propuesto en el conjunto de datos MORPH II, mostró resultados prometedores, logrando un MAE bajo, lo que significa que sus predicciones de edad fueron bastante precisas. En comparación con otros métodos que requieren grandes conjuntos de datos externos para el entrenamiento, este modelo funcionó bien utilizando solo los datos disponibles.
El rendimiento en el conjunto de datos FG-NET también fue fuerte. La conclusión clave es que el método funcionó bien en diferentes grupos de edad sin necesidad de datos adicionales, lo cual es una gran ventaja.
Enfocándose en Características
Para asegurarse de que el modelo se estaba enfocando en características relacionadas con la edad, los investigadores compararon la varianza de características extraídas de caras de la misma identidad. Una menor varianza indicaría que el modelo se basaba en gran medida en características de identidad, lo cual no es deseable para una tarea de predicción de edad. El método demostró una mayor varianza en características extraídas en comparación con métodos tradicionales, lo que sugiere que enfatizó con éxito los detalles relacionados con la edad.
Análisis Visual
Se realizó un análisis Grad-CAM para visualizar en qué partes de la cara se enfocó el modelo durante la estimación de edad. Este análisis mostró que el modelo propuesto se centró en regiones faciales específicas más relacionadas con la edad, como la frente para personas de mediana edad y áreas alrededor de la boca para sujetos más jóvenes. Este enfoque en características particulares indica que el modelo no se basa simplemente en estructuras faciales genéricas, sino que busca signos específicos de la edad.
Evaluando Funciones de Pérdida
La investigación también exploró cómo diferentes funciones de pérdida impactaron en el rendimiento. Al comparar varias combinaciones de funciones de pérdida, fue evidente que ciertas configuraciones funcionaban mejor que otras. La interacción entre la similitud coseno y la pérdida de margen de triplete fue especialmente efectiva, permitiendo que el modelo lograra mejores resultados tanto en conjuntos de datos pequeños como grandes.
A través de pruebas rigurosas, el estudio encontró que usar una combinación de ambos tipos de funciones de pérdida llevó al mejor rendimiento. En particular, los modelos que incluían pérdida de margen de triplete mostraron mayor precisión, especialmente en conjuntos de datos más pequeños.
Conclusión
En resumen, el método introducido para la estimación de edad a partir de imágenes faciales utiliza el aprendizaje contrastivo para reducir efectivamente el impacto de la identidad en la predicción de edad. Al centrarse en las características relevantes asociadas con el envejecimiento mientras minimiza la influencia de rasgos relacionados con la identidad, este enfoque ha demostrado un rendimiento sólido en varios conjuntos de datos.
La investigación destacó que, al seleccionar cuidadosamente cómo comparar imágenes y qué características enfatizar, es posible hacer predicciones de edad precisas sin depender de conjuntos de datos extensos de rostros individuales. Este método muestra potencial para futuras aplicaciones en campos como seguridad, marketing y atención médica, donde entender la edad a partir de imágenes puede proporcionar información valiosa.
Título: Age Prediction From Face Images Via Contrastive Learning
Resumen: This paper presents a novel approach for accurately estimating age from face images, which overcomes the challenge of collecting a large dataset of individuals with the same identity at different ages. Instead, we leverage readily available face datasets of different people at different ages and aim to extract age-related features using contrastive learning. Our method emphasizes these relevant features while suppressing identity-related features using a combination of cosine similarity and triplet margin losses. We demonstrate the effectiveness of our proposed approach by achieving state-of-the-art performance on two public datasets, FG-NET and MORPH-II.
Autores: Yeongnam Chae, Poulami Raha, Mijung Kim, Bjorn Stenger
Última actualización: 2023-08-22 00:00:00
Idioma: English
Fuente URL: https://arxiv.org/abs/2308.11896
Fuente PDF: https://arxiv.org/pdf/2308.11896
Licencia: https://creativecommons.org/licenses/by/4.0/
Cambios: Este resumen se ha elaborado con la ayuda de AI y puede contener imprecisiones. Para obtener información precisa, consulte los documentos originales enlazados aquí.
Gracias a arxiv por el uso de su interoperabilidad de acceso abierto.