Estimación de Edad Avanzada con Aprendizaje Contrastivo de Máscaras Multi-vista
Un nuevo método mejora la predicción de la edad usando rasgos faciales y redes neuronales gráficas.
― 11 minilectura
Tabla de contenidos
- La Tarea de Estimación de Edad
- La Evolución de los Métodos de Estimación de Edad
- El Papel de las Redes Neuronales de Grafo
- El Nuevo Enfoque MMCL-GCN
- Extracción de Características
- Estimación de Edad
- Trabajo Relacionado
- Aprendizaje Contrastivo
- Modelado de Imágenes Enmascaradas
- El Uso de GNNs
- La Estructura del MMCL-GCN
- Extracción de Características
- Estimación de Edad
- Evaluación Experimental
- Descripción General del Conjunto de Datos
- Proceso de Entrenamiento y Ajuste Fino
- Criterios de Evaluación
- Resultados y Análisis
- Conclusión
- Fuente original
Estimar la edad de una persona a partir de sus rasgos faciales tiene muchas aplicaciones en nuestra vida diaria, como seguridad, marketing y redes sociales. Sin embargo, predecir la edad de manera precisa usando imágenes faciales puede ser complicado porque la edad puede verse influenciada por muchos factores, como el género, la raza, las expresiones faciales e incluso cómo se viste o posa la persona.
En los últimos años, los investigadores han probado varios métodos para la Estimación de Edad. Los métodos más antiguos solían utilizar técnicas manuales para extraer características de las imágenes, pero estas no funcionaban bien con imágenes del mundo real que son variadas y complejas. Muchos de los métodos nuevos utilizan técnicas avanzadas como las Redes Neuronales Convolucionales (CNNs) para entender mejor las caras y estimar edades de manera confiable. Si bien las CNNs han traído mejoras, a veces les cuesta lidiar con las formas irregulares y estructuras de las caras.
Este artículo habla sobre un nuevo enfoque llamado Aprendizaje Contrastivo de Máscara Multivista con Red Neuronal Convolucional de Grafo (MMCL-GCN) que busca hacer la estimación de edad más fácil y precisa. Este método incorpora varios pasos, que incluyen la Extracción de características de las imágenes y la estimación de edades de forma más efectiva.
La Tarea de Estimación de Edad
El objetivo principal de la estimación de edad es predecir la edad de una persona usando sus características faciales. Esta tarea es útil en varias áreas, incluyendo la seguridad pública y el marketing. Sin embargo, la estimación de edad puede ser compleja debido a muchos factores que afectan la apariencia, como el género y la raza, así como factores externos como las expresiones faciales e incluso los fondos.
Los métodos tradicionales se basaban típicamente en cinco enfoques principales: clasificación, regresión, distribución de etiquetas, ranking y métodos híbridos. Estos métodos más antiguos a menudo dependían de modelos elaborados manualmente y métodos básicos de procesamiento de imágenes para extraer características y predecir edades usando técnicas de aprendizaje automático como los árboles de decisión.
A medida que la tecnología avanzaba, la introducción de CNNs permitió un mejor reconocimiento de las caras y predicciones de edad más confiables. Los investigadores comenzaron a usar las CNNs de diferentes maneras, como utilizando regresores locales para definir los datos de edad y empleando bosques de regresión para mejores estimaciones de edad. A pesar de que estos métodos más nuevos mejoraron significativamente el rendimiento, aún tenían limitaciones en el modelado de características faciales complejas.
La Evolución de los Métodos de Estimación de Edad
Eventualmente, la aparición de Transformers en tareas visuales llevó a enfoques aún más novedosos para la estimación de edad. Los investigadores empezaron a desarrollar modelos que aprovechaban varios aspectos de las características faciales de manera más efectiva. Por ejemplo, varios estudios propusieron usar métodos como el FAT espacial para modelar atributos faciales y aprender de parches locales para capturar mejor la información facial importante.
Aunque las CNNs y los Transformers han demostrado resultados prometedores en la estimación de edad, a menudo operan bajo el espacio de datos estructurados tradicional, lo que puede limitar su flexibilidad al analizar imágenes faciales complejas.
El Papel de las Redes Neuronales de Grafo
Las Redes Neuronales de Grafo (GNNs) surgieron como una solución potencial para abordar los desafíos que presentan los métodos tradicionales. Las GNNs pueden representar imágenes de manera más natural, centrándose en puntos clave de la cara en lugar de tratar las imágenes solo como una cuadrícula. Las GNNs permiten una mejor extracción de relaciones complejas entre características faciales, lo cual es especialmente relevante para las tareas de estimación de edad.
Al descomponer una imagen en segmentos más pequeños, las GNNs pueden capturar mejor la información contextual importante y las relaciones entre las características faciales. Esta flexibilidad permite a las GNNs manejar imágenes complejas de maneras que las CNNs y Transformers no pueden.
El Nuevo Enfoque MMCL-GCN
Para mejorar la estimación de edad, el MMCL-GCN combina las fortalezas de las GNNs con técnicas de Aprendizaje Auto-Supervisado. Esta nueva estructura tiene dos etapas principales: extracción de características y estimación de edad.
Extracción de Características
En la etapa de extracción de características, el MMCL-GCN utiliza una estructura de grafo para representar imágenes faciales como entrada. Este artículo introduce un nuevo método llamado Aprendizaje Contrastivo de Máscara Multivista (MMCL), que ayuda a aprender las características complejas y la semántica presentadas en las imágenes faciales. El MMCL implica usar una red siamés asimétrica para reconstruir información faltante del grafo original.
La estructura de codificador-decodificador en línea ayuda a recuperar las características necesarias, mientras que el codificador objetivo contribuye a aprender representaciones importantes. Esta combinación lleva a un proceso de extracción de características más poderoso y eficiente.
Para hacer el proceso de extracción de características más efectivo, el MMCL también adopta varias estrategias de aumento para asegurar que el codificador en línea y el codificador objetivo trabajen bien juntos. Esto permite que el modelo aprenda características más comprensivas.
Estimación de Edad
Una vez que se extraen las características, el modelo pasa a la etapa de estimación de edad. Esta etapa utiliza una máquina de aprendizaje extremo de múltiples capas (ML-IELM) especialmente diseñada que puede utilizar efectivamente las características extraídas para predecir la edad. Se usa un clasificador para categorizar la edad en grupos, mientras que un regresor se utiliza para proporcionar una estimación exacta de la edad.
El enfoque MMCL-GCN ha demostrado que puede reducir los errores en la estimación de edad al aprender efectivamente las características importantes relacionadas con la edad presentes en las imágenes faciales.
Trabajo Relacionado
En el ámbito del aprendizaje auto-supervisado, dos métodos importantes han llamado la atención: el aprendizaje contrastivo y el modelado de imágenes enmascaradas.
Aprendizaje Contrastivo
El aprendizaje contrastivo ayuda a crear representaciones a partir de datos no etiquetados, facilitando las tareas posteriores. Funciona acercando puntos de datos similares mientras aleja los disímiles. Varios trabajos fundamentales en aprendizaje contrastivo han explorado diferentes estrategias para mejorar el rendimiento, incluyendo el uso de bancos de memoria para almacenar muestras negativas y empleando técnicas de aumento de datos fuertes.
Aunque el aprendizaje contrastivo ha mostrado promesas, a menudo se enfoca en características globales, descuidando la información local que puede ser crucial en tareas como la estimación de edad.
Modelado de Imágenes Enmascaradas
El modelado de imágenes enmascaradas, inspirado en técnicas utilizadas en procesamiento de lenguaje natural, busca reconstruir partes faltantes de las imágenes. Al aprender a predecir estas secciones faltantes, el modelo desarrolla una mejor comprensión de las características locales. Sin embargo, se ha notado que el modelado enmascarado tiende a carecer de enfoque en la relación entre diferentes imágenes, lo que puede limitar su efectividad.
En los últimos años, ha habido intentos de combinar el aprendizaje contrastivo y el modelado enmascarado para extraer mejor las características. Esta sinergia busca aprovechar las fortalezas de ambos métodos, produciendo un modelo de aprendizaje de representación más robusto.
El Uso de GNNs
Las GNNs han ganado popularidad como herramientas efectivas para estudiar datos estructurados en grafo. A través de su capacidad para agregar información de manera iterativa y actualizar representaciones, las GNNs han logrado resultados sobresalientes en tareas como clasificación de nodos y predicción de enlaces. En el contexto de la estimación de edad, las GNNs permiten un análisis más flexible y completo de las características faciales, especialmente en la comprensión de las relaciones y conexiones entre ellas.
La Estructura del MMCL-GCN
El MMCL-GCN consta de dos etapas principales: extracción de características y estimación de edad.
Extracción de Características
Durante la extracción de características, las imágenes de entrada se representan a través de una estructura de grafo. El mecanismo MMCL emplea múltiples vistas para aprender de los aspectos estructurales y semánticos complejos de las imágenes faciales. La red siamés asimétrica ayuda a reconstruir cualquier información faltante, permitiendo una extracción robusta de características latentes.
La estructura de codificador-decodificador en línea se centra en capturar características locales, mientras que el codificador objetivo mejora las representaciones necesarias para un aprendizaje contrastivo efectivo. Juntos, estos componentes trabajan para crear un poderoso método de extracción de características que puede adaptarse a diferentes tipos de imágenes faciales.
Estimación de Edad
En la etapa de estimación de edad, las características obtenidas del codificador en línea se introducen en el modelo ML-IELM. Esta estructura es excepcionalmente adecuada para manejar datos de alta dimensión, haciéndola efectiva para tareas de clasificación y regresión. El ML-IELM puede clasificar las características faciales en grupos de edad específicos y proporcionar predicciones de edad precisas.
La sinergia del marco MMCL con el ML-IELM permite capturar relaciones complejas entre diferentes características relacionadas con la edad en las imágenes faciales, resultando en un proceso de estimación de edad más efectivo y preciso.
Evaluación Experimental
La efectividad del enfoque MMCL-GCN ha sido validada a través de extensos experimentos en múltiples conjuntos de datos, incluyendo IMDB-WIKI, MORPH-II, Adience Benchmark y LAP-2016. Estos conjuntos de datos proporcionan una base sólida para comparar el modelo propuesto con métodos de última generación.
Descripción General del Conjunto de Datos
IMDB-WIKI: Este conjunto de datos es uno de los más grandes para estimación de edad, con más de 460,000 imágenes de rostros obtenidas de IMDB y Wikipedia. Aunque se utiliza principalmente para pre-entrenamiento, incluye ruido variado debido a diferentes expresiones faciales y fondos.
MORPH-II: Este conjunto de datos ampliamente utilizado comprende más de 55,000 imágenes de 13,000 individuos. Proporciona representaciones de edad diversas, siendo valioso para el entrenamiento y la evaluación.
Adience Benchmark: Este conjunto de datos presenta más de 26,000 imágenes tomadas de escenarios de la vida real, presentando desafíos en términos de pose, iluminación y ruido.
LAP-2016: Este conjunto de datos consta de alrededor de 7,591 imágenes, etiquetadas para la estimación de edad. Ayuda a evaluar el rendimiento de los modelos en diferentes intervalos de edad.
Proceso de Entrenamiento y Ajuste Fino
El modelo MMCL-GCN primero pasa por un pre-entrenamiento no supervisado en el conjunto de datos ImageNet-1K. Después de esto, se entrena adicionalmente usando el conjunto de datos IMDB-WIKI de manera supervisada. Varias técnicas, incluyendo medidas de dropout, aseguran que el modelo esté bien optimizado durante el entrenamiento y ajuste fino.
Criterios de Evaluación
El rendimiento del modelo se evalúa usando Error Absoluto Medio (MAE), Puntuación Acumulativa (CS) y Puntuación Normal (N-score). Estas métricas ayudan a evaluar la precisión y confiabilidad de las predicciones de edad hechas por el MMCL-GCN.
Resultados y Análisis
Los resultados obtenidos de los experimentos indican que el modelo MMCL-GCN supera significativamente a muchos métodos tradicionales en la estimación de edad, logrando métricas competitivas en varios conjuntos de datos. Este éxito se puede atribuir a la combinación única de extracción de características basada en GNN y el proceso de estimación de edad del ML-IELM.
El modelo muestra un rendimiento sólido en el conjunto de datos MORPH-II gracias a sus capacidades robustas de extracción de características. De manera similar, demuestra resultados impresionantes en el conjunto de datos LAP-2016, donde el riguroso proceso de etiquetado permite una evaluación más confiable.
Conclusión
La introducción del MMCL-GCN ofrece una solución innovadora para la compleja tarea de estimar la edad a partir de imágenes faciales. Al combinar los beneficios de las redes neuronales de grafo con técnicas de aprendizaje efectivas, este método proporciona un marco poderoso y flexible para extraer características relevantes y predecir edades con precisión.
La investigación en curso busca explorar aún más las capacidades de las GNNs en visión por computadora, particularmente en aplicaciones más allá de la estimación de edad. Este trabajo, respaldado por diversas fundaciones de investigación, destaca el potencial para avances continuos en el campo.
Título: A Multi-view Mask Contrastive Learning Graph Convolutional Neural Network for Age Estimation
Resumen: The age estimation task aims to use facial features to predict the age of people and is widely used in public security, marketing, identification, and other fields. However, the features are mainly concentrated in facial keypoints, and existing CNN and Transformer-based methods have inflexibility and redundancy for modeling complex irregular structures. Therefore, this paper proposes a Multi-view Mask Contrastive Learning Graph Convolutional Neural Network (MMCL-GCN) for age estimation. Specifically, the overall structure of the MMCL-GCN network contains a feature extraction stage and an age estimation stage. In the feature extraction stage, we introduce a graph structure to construct face images as input and then design a Multi-view Mask Contrastive Learning (MMCL) mechanism to learn complex structural and semantic information about face images. The learning mechanism employs an asymmetric siamese network architecture, which utilizes an online encoder-decoder structure to reconstruct the missing information from the original graph and utilizes the target encoder to learn latent representations for contrastive learning. Furthermore, to promote the two learning mechanisms better compatible and complementary, we adopt two augmentation strategies and optimize the joint losses. In the age estimation stage, we design a Multi-layer Extreme Learning Machine (ML-IELM) with identity mapping to fully use the features extracted by the online encoder. Then, a classifier and a regressor were constructed based on ML-IELM, which were used to identify the age grouping interval and accurately estimate the final age. Extensive experiments show that MMCL-GCN can effectively reduce the error of age estimation on benchmark datasets such as Adience, MORPH-II, and LAP-2016.
Autores: Yiping Zhang, Yuntao Shou, Tao Meng, Wei Ai, Keqin Li
Última actualización: 2024-07-23 00:00:00
Idioma: English
Fuente URL: https://arxiv.org/abs/2407.16234
Fuente PDF: https://arxiv.org/pdf/2407.16234
Licencia: https://creativecommons.org/licenses/by/4.0/
Cambios: Este resumen se ha elaborado con la ayuda de AI y puede contener imprecisiones. Para obtener información precisa, consulte los documentos originales enlazados aquí.
Gracias a arxiv por el uso de su interoperabilidad de acceso abierto.