SCD-Net: Avanzando el Reconocimiento de Acciones Basado en Esqueleto
Un nuevo marco mejora el reconocimiento de acciones al separar las pistas espaciales y temporales.
― 7 minilectura
Tabla de contenidos
El Reconocimiento de Acciones basado en esqueletos es una forma de identificar acciones humanas usando datos de sus esqueletos. Este método ha avanzado bastante en los últimos años por dos razones principales. Primero, los modelos de aprendizaje profundo, especialmente las Redes Neuronales Convolucionales de Grafos (GCN), han demostrado ser efectivos para esta tarea. Segundo, se han creado grandes conjuntos de datos como NTU-RGB+D, que proporcionan una base sólida para la investigación.
Sin embargo, crear modelos que funcionen bien generalmente requiere mucha data etiquetada, que puede ser difícil de recolectar y anotar. Para superar este problema, el aprendizaje auto-supervisado se ha vuelto popular. Este enfoque utiliza las relaciones naturales en los datos en lugar de depender de etiquetas externas. Específicamente, el Aprendizaje Contrastivo ha mostrado gran potencial en este área porque puede aprender representaciones útiles de los datos sin necesidad de etiquetas manuales.
El Desafío de los Métodos Actuales
La mayoría de los enfoques existentes en el reconocimiento de acciones basado en esqueletos procesan los datos de una forma que entrelaza las diferentes piezas de información. A menudo tratan los datos como una representación única y compleja. Mientras que algunos métodos intentan centrarse solo en datos espaciales o temporales, separarlos completamente no ha funcionado bien. Además, muchas técnicas simplemente emparejan datos del mismo nivel de representación, sin considerar las diferencias entre los varios tipos de información. Esta omisión significa que el potencial de los métodos de Aumento de Datos no se utiliza completamente.
Para abordar estos problemas, presentamos un nuevo marco de aprendizaje llamado la Red de Desentrelazado de Claves Espaciotemporales, o SCD-Net. Este método se centra en separar las claves espaciales y temporales en los datos, lo que ayuda a crear representaciones más claras y mejora el rendimiento del reconocimiento de acciones.
Entendiendo el Marco de SCD-Net
Cómo Funciona SCD-Net
SCD-Net combina un extractor de características con un módulo de desacoplamiento. El extractor de características saca las características básicas de las secuencias de esqueletos, mientras que el módulo de desacoplamiento separa estas características en categorías espaciales y temporales. Al hacer esto, podemos gestionar las interacciones entre los diferentes tipos de información de forma más efectiva.
Al entrenar SCD-Net, usamos un ancla global que representa toda la información de los dominios Espacial y Temporal. Este ancla conecta las diferentes piezas de información y anima a la red a aprender de todos los datos de manera eficiente.
Otra parte importante de nuestro marco es una nueva estrategia de enmascaramiento, que aplica restricciones específicas a los datos. Esta estrategia se basa en los avances recientes en modelado de imágenes enmascaradas, ayudando al modelo a aprender las relaciones entre diferentes partes de la secuencia de manera más efectiva.
Características Clave de SCD-Net
Encoder de doble camino: Este encoder ayuda a producir representaciones espaciales y temporales claras a partir de las secuencias de esqueletos. Primero recopila los datos y luego los descompone en capas separadas que se centran en características espaciales o temporales.
Pérdida contrastiva entre dominios: Esta función de pérdida guía al modelo para aprender cómo se relacionan las diferentes representaciones entre sí. Conecta la representación global con otras al medir similitudes y diferencias, ayudando al modelo a concentrarse en aprender distinciones útiles.
Aumento de datos estructurado: Nuestro enfoque para el aumento de datos implica enmascarar regiones de los datos de entrada para alentar al modelo a aprender de varios contextos. Este método no solo mejora la diversidad de los datos de entrenamiento, sino que también permite que el modelo comprenda las relaciones presentes en las secuencias de esqueletos de manera más robusta.
Experimentos y Resultados
Para evaluar la efectividad de SCD-Net, realizamos pruebas usando dos conjuntos de datos populares: NTU-RGB+D (60 y 120 categorías) y PKU-MMD. Estos conjuntos de datos incluyen una amplia variedad de acciones realizadas por múltiples sujetos, ofreciendo una buena base para probar nuestro marco.
Rendimiento en Reconocimiento de Acciones
Para las tareas de reconocimiento de acciones, adoptamos un enfoque de evaluación lineal. Esto implica fijar los parámetros pre-entrenados del modelo y solo entrenar una nueva capa dedicada a la predicción de etiquetas. Los resultados mostraron que SCD-Net superó a los métodos existentes por un margen significativo. En particular, mejoró la precisión hasta un 5.5% en NTU-60 y un 4.1% en NTU-120 en comparación con los mejores métodos anteriores. Los resultados para PKU-MMD también mostraron un rendimiento excelente.
Recuperación de Acciones
En tareas de recuperación de acciones, probamos SCD-Net usando el clasificador KNeighbors mientras manteníamos todos los parámetros pre-entrenados fijos. Nuestro método logró resultados impresionantes en ambos, NTU-60 y NTU-120, con precisiones que superaron significativamente a los métodos anteriores.
Aprendizaje por Transferencia
Nuestro método también demostró ser efectivo en tareas de aprendizaje por transferencia. Transferimos el conocimiento adquirido de un conjunto de datos a otro, mostrando cómo SCD-Net podría retener y aplicar la información aprendida en diferentes dominios. Observamos mejoras en el rendimiento sobre métodos anteriores de hasta un 11.2%.
Aprendizaje Semi-supervisado
En escenarios de aprendizaje semi-supervisado, incluso con solo el 1% de los datos etiquetados disponibles, SCD-Net alcanzó una precisión por encima del 69%. A medida que la cantidad de datos etiquetados aumentó al 10%, el rendimiento mejoró significativamente, mostrando la robustez de nuestro enfoque.
Componentes de SCD-Net
Encoder de desacoplamiento de doble camino
El encoder de desacoplamiento de doble camino es crucial en SCD-Net, permitiendo separar la información espacial y temporal sin problemas. Primero, el modelo aplica aumento de datos para crear nuevas vistas de los datos de entrada. Luego extrae características y las desacopla para generar representaciones espaciales y temporales distintas. Esta separación es vital, ya que la información entrelazada puede llevar a confusiones durante el reconocimiento.
Pérdida contrastiva entre dominios
La pérdida contrastiva entre dominios mide qué tan bien el modelo aprende a diferenciar entre diferentes representaciones. Al anclar la representación global, SCD-Net mejora cómo interactúan los diferentes tipos de información. Esto ayuda a asegurar que el modelo pueda discernir sutiles diferencias entre varias acciones.
Técnicas de aumento de datos
Introdujimos una forma estructurada de aumento de datos que emplea enmascaramiento en dimensiones espaciales y temporales. Este método permite al modelo aprender de diferentes contextos al enmascarar grupos de articulaciones o fotogramas relacionados en lugar de puntos individuales. Al hacerlo, aumentamos la variedad de datos de entrenamiento y animamos al modelo a capturar relaciones de manera más efectiva.
Validación Experimental
Realizamos múltiples experimentos para validar los diversos componentes de SCD-Net. Eliminar elementos como el extractor de características o el módulo de desacoplamiento llevó a caídas significativas en el rendimiento. Esto refuerza la idea de que tener una arquitectura bien diseñada capaz de separar las características claramente es esencial.
Conclusión
En resumen, SCD-Net presenta una nueva forma de abordar el reconocimiento de acciones basado en esqueletos a través de su enfoque en desentrelazar claves espaciales y temporales. Al crear representaciones más claras y utilizar técnicas innovadoras de aumento de datos, nuestro método no solo supera a los métodos existentes en varias tareas, sino que también establece un nuevo estándar en el campo.
La investigación futura podría centrarse en refinar aún más estos componentes y explorar nuevas formas de aprovechar los paradigmas de aprendizaje auto-supervisado. Nuestro trabajo demuestra el potencial de mejorar la precisión del reconocimiento de acciones al mejorar cómo se procesan y utilizan los datos de las secuencias de esqueletos, allanando el camino para avances en la comprensión de acciones humanas.
Título: SCD-Net: Spatiotemporal Clues Disentanglement Network for Self-supervised Skeleton-based Action Recognition
Resumen: Contrastive learning has achieved great success in skeleton-based action recognition. However, most existing approaches encode the skeleton sequences as entangled spatiotemporal representations and confine the contrasts to the same level of representation. Instead, this paper introduces a novel contrastive learning framework, namely Spatiotemporal Clues Disentanglement Network (SCD-Net). Specifically, we integrate the decoupling module with a feature extractor to derive explicit clues from spatial and temporal domains respectively. As for the training of SCD-Net, with a constructed global anchor, we encourage the interaction between the anchor and extracted clues. Further, we propose a new masking strategy with structural constraints to strengthen the contextual associations, leveraging the latest development from masked image modelling into the proposed SCD-Net. We conduct extensive evaluations on the NTU-RGB+D (60&120) and PKU-MMD (I&II) datasets, covering various downstream tasks such as action recognition, action retrieval, transfer learning, and semi-supervised learning. The experimental results demonstrate the effectiveness of our method, which outperforms the existing state-of-the-art (SOTA) approaches significantly.
Autores: Cong Wu, Xiao-Jun Wu, Josef Kittler, Tianyang Xu, Sara Atito, Muhammad Awais, Zhenhua Feng
Última actualización: 2023-09-11 00:00:00
Idioma: English
Fuente URL: https://arxiv.org/abs/2309.05834
Fuente PDF: https://arxiv.org/pdf/2309.05834
Licencia: https://creativecommons.org/licenses/by-nc-sa/4.0/
Cambios: Este resumen se ha elaborado con la ayuda de AI y puede contener imprecisiones. Para obtener información precisa, consulte los documentos originales enlazados aquí.
Gracias a arxiv por el uso de su interoperabilidad de acceso abierto.