Nuevo enfoque para el reconocimiento de acciones en videos aéreos
Este artículo presenta un método para reconocer acciones en videos de drones.
― 6 minilectura
Tabla de contenidos
Los videos aéreos capturados por drones se han vuelto súper populares para diferentes aplicaciones. Pero, reconocer acciones en estos videos es complicado por varias razones. Este artículo presenta un nuevo método para reconocer acciones en videos aéreos. El objetivo es mejorar la precisión y eficiencia del reconocimiento de acciones, haciéndolo apto para usarse en dispositivos pequeños como drones.
El Reto del Reconocimiento de Video Aéreo
Cuando los drones graban videos desde arriba, la gente se ve mucho más pequeña que en los videos a nivel del suelo. Este tamaño reducido hace que sea difícil para las computadoras reconocer qué acciones se están realizando. Otros problemas incluyen lo siguiente:
Resolución Pequeña: Las personas son solo puntitos en las grabaciones aéreas, con el fondo ocupando la mayor parte del marco del video.
Escalas Diferentes: Dependiendo de qué tan alto esté volando el dron, las personas pueden verse de tamaño muy diferente. Esta inconsistencia complica el proceso de entrenar a las computadoras para reconocer acciones.
Cámara en Movimiento: Los drones siempre se están moviendo, lo que significa que el fondo cambia mucho más que las acciones de la persona. Esto puede confundir a los modelos de reconocimiento para que se enfoquen demasiado en el fondo en vez de en la persona.
Por estas razones, los métodos tradicionales de reconocimiento que funcionan bien con grabaciones de video normales no son efectivos en videos aéreos.
Métodos Actuales y Sus Limitaciones
Los métodos populares para reconocer acciones en videos generalmente requieren computadoras potentes con mucha memoria. A menudo, estos métodos no pueden funcionar en dispositivos más pequeños como drones porque tienen recursos limitados. La mayoría de los métodos han sido entrenados para trabajar con imágenes tomadas desde el suelo, así que les cuesta con datos aéreos. Esto crea una necesidad de nuevas técnicas específicamente para el reconocimiento de acciones aéreas.
Solución Propuesta: Un Nuevo Enfoque para el Reconocimiento
Este artículo presenta un nuevo enfoque para reconocer acciones en videos aéreos, centrándose en dos componentes clave:
Auto Zoom: Esta función encuentra y hace zoom automáticamente en la persona en el video. Recorta el área alrededor de la persona y la amplía para que se puedan ver más detalles, facilitando la identificación de acciones.
Razonamiento Temporal: Este proceso analiza la información temporal de los fotogramas del video. Combina información de diferentes fotogramas para entender qué acción está ocurriendo.
Juntos, estos componentes ayudan a mejorar la precisión en el reconocimiento de acciones, mientras que también permiten que funcione en dispositivos de poca potencia.
Auto Zoom Explicado
La función de auto zoom identifica a la persona en el video y hace zoom para capturar más detalles. Así es como funciona:
Recorte Dinámico: El software calcula el tamaño del área a recortar según la posición de la persona. Se asegura de que la persona ocupe alrededor del 15% al 20% del área recortada. Así, el modelo obtiene suficiente información sobre la persona y su entorno.
Detección de fotogramas clave: El sistema no revisa cada fotograma, sino que se enfoca en fotogramas clave, reduciendo la cantidad de trabajo necesaria. Normalmente, selecciona alrededor del 10% al 20% de los fotogramas como clave y se basa en estos para rastrear el movimiento de la persona.
Filtrado de Ruido: Al enfocarse en los fotogramas clave y hacer zoom, el método filtra la mayoría del ruido de fondo causado por el movimiento del dron. La persona se mantiene centrada en el fotograma, lo que ayuda al modelo a enfocarse en sus acciones.
Detalles del Razonamiento Temporal
El algoritmo de razonamiento temporal agrega otra capa al proceso de reconocimiento de acciones. Así es como funciona:
Uso de Convoluciones: El algoritmo utiliza convoluciones para analizar tanto los detalles espaciales (el contenido visual) como los detalles temporales (el cambio a lo largo del tiempo). Esto ayuda al modelo a aprender cómo progresan las acciones de un fotograma a otro.
Mecanismo de Atención: Este método puede enfocarse en partes específicas del video. Identifica qué fotogramas o características son más importantes para reconocer acciones. Al considerar las relaciones entre diferentes fotogramas, construye una comprensión más completa de la acción.
Evaluación del Rendimiento
El nuevo método fue probado en varios conjuntos de datos diseñados específicamente para videos aéreos. Los resultados mostraron mejoras significativas en el rendimiento en comparación con los métodos existentes.
Resultados en Diferentes Conjuntos de Datos
Conjunto de Datos RoCoG-v2: En este conjunto, el nuevo método logró una mejora de precisión de alrededor del 6.1% al 7.4% sobre los mejores métodos conocidos previamente. Este conjunto incluye numerosos videos largos con múltiples categorías de acción.
Conjunto de Datos UAV-Human: El nuevo enfoque proporcionó un notable aumento de precisión del 8.3% al 10.4% en este extenso conjunto, que incluye una amplia variedad de condiciones y comportamientos humanos.
Conjunto de Datos de Acción de Drones: Este conjunto "Drone Action" incluye videos de personas realizando acciones específicas. El nuevo enfoque mejoró la precisión en un 3.2%, alcanzando una precisión máxima del 95.9%.
Aplicaciones Prácticas
La tecnología tiene varias aplicaciones prácticas. Se puede implementar en drones para vigilancia, misiones de búsqueda y rescate o monitoreo de eventos. Usando este método, los drones pueden identificar acciones de manera eficiente incluso cuando vuelan a gran altura, proporcionando información valiosa sin necesidad de grandes recursos computacionales.
Direcciones Futuras
Aunque los resultados son prometedores, hay algunas limitaciones que abordar. El método actual asume principalmente que solo una persona está actuando a la vez, lo cual no siempre es el caso en situaciones reales. Desarrollar técnicas que puedan reconocer acciones que involucren a varias personas haría que el sistema fuera más robusto.
Además, se pueden hacer mejoras para manejar condiciones de iluminación variables, cambios en el clima y complejidades en el fondo. La investigación futura está dirigida a mejorar los métodos para incluir estas consideraciones para que el reconocimiento de acciones aéreas se pueda aplicar más ampliamente.
Conclusión
Este nuevo enfoque para reconocer acciones en videos aéreos llena un vacío notable en la tecnología actual. Al desarrollar características como auto zoom y razonamiento temporal, este sistema logra un mejor rendimiento en drones y dispositivos de baja potencia. La promesa de un mejor reconocimiento de acciones abre la puerta a aplicaciones versátiles en diferentes campos, haciendo que monitorear y entender actividades humanas desde el cielo sea más efectivo y eficiente.
Título: AZTR: Aerial Video Action Recognition with Auto Zoom and Temporal Reasoning
Resumen: We propose a novel approach for aerial video action recognition. Our method is designed for videos captured using UAVs and can run on edge or mobile devices. We present a learning-based approach that uses customized auto zoom to automatically identify the human target and scale it appropriately. This makes it easier to extract the key features and reduces the computational overhead. We also present an efficient temporal reasoning algorithm to capture the action information along the spatial and temporal domains within a controllable computational cost. Our approach has been implemented and evaluated both on the desktop with high-end GPUs and on the low power Robotics RB5 Platform for robots and drones. In practice, we achieve 6.1-7.4% improvement over SOTA in Top-1 accuracy on the RoCoG-v2 dataset, 8.3-10.4% improvement on the UAV-Human dataset and 3.2% improvement on the Drone Action dataset.
Autores: Xijun Wang, Ruiqi Xian, Tianrui Guan, Celso M. de Melo, Stephen M. Nogar, Aniket Bera, Dinesh Manocha
Última actualización: 2023-03-02 00:00:00
Idioma: English
Fuente URL: https://arxiv.org/abs/2303.01589
Fuente PDF: https://arxiv.org/pdf/2303.01589
Licencia: https://creativecommons.org/licenses/by/4.0/
Cambios: Este resumen se ha elaborado con la ayuda de AI y puede contener imprecisiones. Para obtener información precisa, consulte los documentos originales enlazados aquí.
Gracias a arxiv por el uso de su interoperabilidad de acceso abierto.