Simple Science

Ciencia de vanguardia explicada de forma sencilla

# Informática# Visión por Computador y Reconocimiento de Patrones

Avances en la estimación de edad usando imágenes faciales

Un nuevo método mejora la estimación de edad a partir de imágenes faciales mientras minimiza la influencia de la identidad.

― 6 minilectura


Descubrimiento en elDescubrimiento en elAnálisis de la EdadFacialprecisas a partir de imágenes faciales.Nuevo método logra predicciones de edad
Tabla de contenidos

Estimar la edad de una persona a partir de su imagen facial es un área de interés que está creciendo. Esta tarea puede ser complicada porque conseguir un gran conjunto de imágenes de la misma persona a diferentes edades es difícil. En cambio, la propuesta aquí se centra en usar conjuntos de datos disponibles que muestran a diferentes personas a varias edades. El objetivo es encontrar características relacionadas con la edad mientras se reduce la influencia de la identidad en los resultados.

El Reto de la Estimación de Edad

La estimación de edad implica analizar las características visuales presentes en las imágenes faciales. Diferentes aspectos de la cara de una persona, como arrugas y textura de la piel, cambian con la edad. Sin embargo, diferentes personas tienen estructuras faciales distintas, lo que hace complicado destacar características relacionadas con la edad. La mayoría de los métodos existentes utilizan grandes conjuntos de datos, pero reunir una serie de imágenes de la misma persona a lo largo de su vida no es fácil.

Tradicionalmente, los métodos de estimación de edad se pueden dividir en tres categorías: clasificación, regresión y ranking. Recientemente, se han introducido nuevas técnicas como el aprendizaje auto-supervisado. Sin embargo, muchos de estos métodos se enfocan demasiado en identificar a una persona en lugar de su edad, lo que puede llevar a inexactitudes.

Cómo Funciona

El método propuesto busca mejorar la estimación de edad usando una técnica llamada Aprendizaje Contrastivo. Esta técnica compara imágenes para enfatizar las características relacionadas con la edad mientras minimiza las características vinculadas a la identidad. Para lograr esto, el método utiliza conjuntos de tres imágenes. Una imagen actúa como ancla, otra es similar en edad pero diferente en identidad, y la tercera es diferente en edad e identidad.

Al mirar estas imágenes juntas, el sistema intenta reducir la influencia de la identidad en la predicción de edad. Esto significa que puede centrarse en detalles más pequeños que indican la edad, en lugar de dejarse llevar por quién es la persona.

Conjuntos de Datos y Protocolos

El método se probó en dos conjuntos de datos disponibles públicamente: MORPH II y FG-NET. El conjunto de datos MORPH II contiene más de 55,000 imágenes de aproximadamente 13,600 individuos, con edades que varían entre 16 y 77 años. FG-NET tiene más de 1,000 imágenes de 82 individuos, con edades desde recién nacidos hasta 69 años. Estos conjuntos de datos se han utilizado en varios estudios, lo que los hace ideales para comparar resultados.

Pasos de Implementación

Antes del análisis, todas las imágenes se alinearon para asegurar consistencia. Se utilizó un modelo llamado ResNet-18 para extraer características de estas imágenes normalizadas. Durante el entrenamiento, varias modificaciones de imagen, como giros aleatorios y transformaciones, ayudaron a mejorar la capacidad del modelo para generalizar.

El entrenamiento se llevó a cabo utilizando un optimizador llamado Adam, que ajusta las tasas de aprendizaje durante el proceso. El modelo se evaluó en base al Error Absoluto Medio (MAE), que mide la diferencia entre las edades predichas y las edades reales.

Resultados y Comparaciones

Al evaluar el rendimiento del modelo propuesto en el conjunto de datos MORPH II, mostró resultados prometedores, logrando un MAE bajo, lo que significa que sus predicciones de edad fueron bastante precisas. En comparación con otros métodos que requieren grandes conjuntos de datos externos para el entrenamiento, este modelo funcionó bien utilizando solo los datos disponibles.

El rendimiento en el conjunto de datos FG-NET también fue fuerte. La conclusión clave es que el método funcionó bien en diferentes grupos de edad sin necesidad de datos adicionales, lo cual es una gran ventaja.

Enfocándose en Características

Para asegurarse de que el modelo se estaba enfocando en características relacionadas con la edad, los investigadores compararon la varianza de características extraídas de caras de la misma identidad. Una menor varianza indicaría que el modelo se basaba en gran medida en características de identidad, lo cual no es deseable para una tarea de predicción de edad. El método demostró una mayor varianza en características extraídas en comparación con métodos tradicionales, lo que sugiere que enfatizó con éxito los detalles relacionados con la edad.

Análisis Visual

Se realizó un análisis Grad-CAM para visualizar en qué partes de la cara se enfocó el modelo durante la estimación de edad. Este análisis mostró que el modelo propuesto se centró en regiones faciales específicas más relacionadas con la edad, como la frente para personas de mediana edad y áreas alrededor de la boca para sujetos más jóvenes. Este enfoque en características particulares indica que el modelo no se basa simplemente en estructuras faciales genéricas, sino que busca signos específicos de la edad.

Evaluando Funciones de Pérdida

La investigación también exploró cómo diferentes funciones de pérdida impactaron en el rendimiento. Al comparar varias combinaciones de funciones de pérdida, fue evidente que ciertas configuraciones funcionaban mejor que otras. La interacción entre la similitud coseno y la pérdida de margen de triplete fue especialmente efectiva, permitiendo que el modelo lograra mejores resultados tanto en conjuntos de datos pequeños como grandes.

A través de pruebas rigurosas, el estudio encontró que usar una combinación de ambos tipos de funciones de pérdida llevó al mejor rendimiento. En particular, los modelos que incluían pérdida de margen de triplete mostraron mayor precisión, especialmente en conjuntos de datos más pequeños.

Conclusión

En resumen, el método introducido para la estimación de edad a partir de imágenes faciales utiliza el aprendizaje contrastivo para reducir efectivamente el impacto de la identidad en la predicción de edad. Al centrarse en las características relevantes asociadas con el envejecimiento mientras minimiza la influencia de rasgos relacionados con la identidad, este enfoque ha demostrado un rendimiento sólido en varios conjuntos de datos.

La investigación destacó que, al seleccionar cuidadosamente cómo comparar imágenes y qué características enfatizar, es posible hacer predicciones de edad precisas sin depender de conjuntos de datos extensos de rostros individuales. Este método muestra potencial para futuras aplicaciones en campos como seguridad, marketing y atención médica, donde entender la edad a partir de imágenes puede proporcionar información valiosa.

Artículos similares