Simple Science

Ciencia de vanguardia explicada de forma sencilla

# Informática# Visión por Computador y Reconocimiento de Patrones

Avances en el Reconocimiento de Acciones en Conjuntos Abiertos

Un nuevo marco mejora el reconocimiento de acciones al potenciar la representación de características.

― 7 minilectura


Nuevo marco para elNuevo marco para elreconocimiento deaccionesen el reconocimiento de acciones.características para mejores resultadosMejorando la representación de
Tabla de contenidos

En los últimos años, reconocer acciones humanas en videos se ha convertido en un área de investigación importante. Los métodos tradicionales suelen asumir que todas las acciones en el conjunto de prueba están incluidas en el conjunto de entrenamiento. Sin embargo, esta suposición no se cumple en situaciones del mundo real donde pueden aparecer acciones desconocidas. Aquí es donde entra en juego el reconocimiento de acciones en conjuntos abiertos (OSAR). OSAR busca identificar acciones conocidas mientras rechaza las desconocidas que no se vieron durante el entrenamiento.

La Importancia de la Representación de características

La mayoría de los enfoques existentes se centran principalmente en calcular puntuaciones de incertidumbre, que indican el nivel de confianza del modelo en sus predicciones. Aunque las puntuaciones de incertidumbre son importantes, pasan por alto un aspecto crítico: la representación de las características derivadas de las acciones. Las características deben ser ricas en diversidad semántica para mejorar el rendimiento en el reconocimiento de acciones, especialmente cuando hay acciones desconocidas presentes.

Analizando Representaciones de Características

Para mejorar OSAR, necesitamos analizar cómo se comportan las características durante el proceso. Específicamente, podemos clasificar la información en las características en dos tipos: información específica de instancia (IS) e información específica de clase (CS). La información IS ayuda a distinguir entre ejemplos dentro de la misma clase, mientras que la información CS es vital para identificar clases. Ambos tipos de información son cruciales para un rendimiento efectivo en escenarios de conjunto abierto.

Marco de Aprendizaje de Similaridad Prototípica

Para mejorar el manejo de la información IS y CS, desarrollamos un nuevo marco llamado Aprendizaje de Similaridad Prototípica (PSL). La idea detrás de PSL es mantener la variación entre las características de las instancias dentro de la misma clase, para conservar las características únicas de cada instancia. Este enfoque ayuda a retener la información IS de manera efectiva.

Además, es común que las acciones desconocidas se parezcan a las conocidas en apariencia. Para abordar esto, nuestro marco PSL incorpora una técnica llamada remezcla de videos. Esta técnica ayuda al modelo a aprender las diferencias en la información temporal entre videos originales y mezclados, fortaleciendo así la información CS en la representación de características.

Experimentaciones y Resultados

Para validar el marco PSL, se realizaron extensos experimentos en varios conjuntos de datos. Los resultados mostraron una mejora notable tanto en el rendimiento de conjunto abierto como de conjunto cerrado al usar PSL en comparación con los métodos tradicionales. Esto indica que enriquecer la información IS y CS puede mejorar significativamente la capacidad del modelo para manejar situaciones de conjunto abierto.

Visión General de Métodos de Reconocimiento de Acciones

Los avances recientes en métodos de reconocimiento de acciones combinan pistas de apariencia y movimiento para obtener mejores resultados. Enfoques comunes, como redes de dos flujos, aprovechan la información espacial y la dinámica temporal. Otras técnicas también utilizan redes convolucionales 3D para modelar ambos aspectos.

A pesar de estos avances, muchos métodos existentes aún están principalmente ajustados para condiciones de conjunto cerrado. Esto plantea un desafío al aplicar estos métodos en situaciones del mundo real donde pueden aparecer acciones desconocidas.

Técnicas de Reconocimiento de Acciones de Conjunto Abierto

Ha habido un enfoque creciente en OSAR, con varios métodos diseñados específicamente para identificar acciones desconocidas. Muchos de estos métodos adaptan técnicas del reconocimiento de imágenes de conjunto abierto al dominio de video. Sin embargo, la mayoría de estas técnicas se centran principalmente en refinar las puntuaciones de incertidumbre, en lugar de mejorar las representaciones de características.

Nuestro enfoque, a través de PSL, es distinto ya que se compromete a enriquecer la representación de características, buscando una mejor diferenciabilidad entre acciones conocidas y desconocidas.

El Papel de la Teoría del Cuello de Botella de Información

Para justificar aún más nuestro enfoque, aplicamos la teoría del cuello de botella de información (IB) para entender el comportamiento de las características durante las tareas de OSAR. Según esta teoría, los modelos tienden a aprender la mínima información necesaria para la tarea específica en cuestión. En el caso del reconocimiento de acciones, esto puede llevar a una pérdida de valiosa información IS, que es vital para identificar acciones desconocidas.

Al centrarnos en la información IS y CS, nuestro marco PSL tiene la intención de maximizar la información relevante capturada en las representaciones de características, asegurando que el modelo esté bien equipado para manejar el reconocimiento de acciones en conjunto abierto.

Mejorando la Información IS y CS

El marco PSL busca lograr dos objetivos: retener la información IS y ampliar la información CS. Al diseñar cuidadosamente la función de pérdida, alentamos al modelo a mantener un nivel de disimilitud entre instancias de la misma clase, haciendo que sea menos probable aplastar la información IS.

Además, integramos el concepto de videos mezclados para mejorar la información CS. Esta técnica permite al modelo centrarse en las distinciones temporales entre videos originales y mezclados, haciéndolo capaz de distinguir acciones que pueden parecer similares a simple vista.

Protocolos de Experimento

Para evaluar nuestros métodos, utilizamos múltiples conjuntos de datos, incluyendo UCF101 para el entrenamiento y HMDB51 y MiT-v2 para la evaluación de conjunto abierto. El proceso de entrenamiento involucró medir tanto la precisión de conjunto cerrado como métricas de conjunto abierto, como el área bajo la curva de características operativas del receptor (AUROC) y el área bajo la curva de precisión-recall (AUPR).

Comparación de Rendimiento

Los resultados en varios métodos demostraron que nuestro enfoque PSL supera significativamente a los métodos de última generación existentes tanto en escenarios de conjunto cerrado como abierto. Notablemente, la incorporación de videos mezclados contribuyó a un aprendizaje de características más rico y mejores métricas de rendimiento.

Nos dimos cuenta de que los modelos que utilizaron información semántica más rica durante el entrenamiento se desempeñaron mejor en las evaluaciones de conjunto abierto en comparación con aquellos que no lo hicieron. Esto refuerza la idea de que una gama diversa de representaciones de características es vital para un reconocimiento de acciones efectivo.

Comprendiendo Representaciones de Características

Para comprender mejor el rendimiento de nuestro marco PSL, empleamos la descomposición de valores singulares para analizar las representaciones de características aprendidas. El análisis mostró que los modelos PSL retuvieron más información a través de diferentes dimensiones en comparación con enfoques tradicionales, lo que llevó a un mejor rendimiento.

Análisis de Incertidumbre In-D y OoD

Examinamos además las distribuciones de incertidumbre entre muestras dentro de la distribución (InD) y fuera de la distribución (OoD). Nuestros hallazgos sugieren que, mientras que otros métodos a menudo asignan baja incertidumbre tanto a muestras InD como OoD, nuestro enfoque PSL mantuvo una distinción más clara. Esto permite al modelo asignar mayor incertidumbre a muestras que eran desconocidas durante el entrenamiento.

Conclusión

En resumen, el reconocimiento de acciones en conjunto abierto es un área de estudio esencial, especialmente a medida que las situaciones del mundo real presentan desafíos no cubiertos por enfoques tradicionales. Nuestro marco PSL destaca la importancia de representaciones de características ricas, buscando mejorar la información IS y CS.

A través de extensas experimentaciones, demostramos que centrarse en preservar la información dentro de las características mejora significativamente el rendimiento en escenarios de conjunto abierto y cerrado. Al adoptar estos conocimientos, los esfuerzos de investigación futuros pueden seguir avanzando en el campo del reconocimiento de acciones, logrando modelos más confiables y adaptables que puedan manejar una gama más amplia de situaciones del mundo real.

Fuente original

Título: Enlarging Instance-specific and Class-specific Information for Open-set Action Recognition

Resumen: Open-set action recognition is to reject unknown human action cases which are out of the distribution of the training set. Existing methods mainly focus on learning better uncertainty scores but dismiss the importance of feature representations. We find that features with richer semantic diversity can significantly improve the open-set performance under the same uncertainty scores. In this paper, we begin with analyzing the feature representation behavior in the open-set action recognition (OSAR) problem based on the information bottleneck (IB) theory, and propose to enlarge the instance-specific (IS) and class-specific (CS) information contained in the feature for better performance. To this end, a novel Prototypical Similarity Learning (PSL) framework is proposed to keep the instance variance within the same class to retain more IS information. Besides, we notice that unknown samples sharing similar appearances to known samples are easily misclassified as known classes. To alleviate this issue, video shuffling is further introduced in our PSL to learn distinct temporal information between original and shuffled samples, which we find enlarges the CS information. Extensive experiments demonstrate that the proposed PSL can significantly boost both the open-set and closed-set performance and achieves state-of-the-art results on multiple benchmarks. Code is available at https://github.com/Jun-CEN/PSL.

Autores: Jun Cen, Shiwei Zhang, Xiang Wang, Yixuan Pei, Zhiwu Qing, Yingya Zhang, Qifeng Chen

Última actualización: 2023-03-25 00:00:00

Idioma: English

Fuente URL: https://arxiv.org/abs/2303.15467

Fuente PDF: https://arxiv.org/pdf/2303.15467

Licencia: https://creativecommons.org/licenses/by-nc-sa/4.0/

Cambios: Este resumen se ha elaborado con la ayuda de AI y puede contener imprecisiones. Para obtener información precisa, consulte los documentos originales enlazados aquí.

Gracias a arxiv por el uso de su interoperabilidad de acceso abierto.

Más de autores

Artículos similares