Simple Science

Ciencia de vanguardia explicada de forma sencilla

# Informática# Visión por Computador y Reconocimiento de Patrones

Avances en la detección de lanzamientos de objetos en el tráfico

Nuevo conjunto de datos ayuda a la detección automática de acciones de lanzamiento en grabaciones de vigilancia.

― 9 minilectura


Detectando Acciones deDetectando Acciones deLanzamiento Peligrosasvigilancia del tráfico.acciones de lanzamiento en laLa investigación mejora la detección de
Tabla de contenidos

Las cámaras de vigilancia están cada vez más presentes en espacios públicos para ayudar a mantener a la gente segura. Pueden desalentar comportamientos negativos y facilitar la detección de problemas antes de que se agraven. Sin embargo, con tanto material de video siendo monitoreado, los operadores humanos pueden pasar por alto eventos importantes. Aquí es donde entra la detección automatizada, que permite identificar rápidamente actividades inusuales.

Un comportamiento específico que puede representar una amenaza, pero que a menudo pasa desapercibido en la investigación, es el acto de lanzar objetos, especialmente en el tráfico. Este comportamiento puede interrumpir el flujo de vehículos y representar un peligro para todos en la carretera. Para abordar este problema, se creó un nuevo conjunto de datos que incluye videos de participantes del tráfico, como peatones, ciclistas y conductores, lanzando objetos. El conjunto de datos también incluye videos de comportamiento normal en el tráfico sin acciones de lanzamiento. Esto ayudará a desarrollar herramientas para reconocer cuando alguien está arrojando algo e identificarlas como eventos potencialmente peligrosos.

El conjunto de datos contiene 271 videos de acciones de lanzamiento y 130 videos donde no se producen lanzamientos. Esta colección es esencial porque actualmente no hay Conjuntos de datos disponibles públicamente que se centren específicamente en acciones de lanzamiento. Al analizar estos videos, los investigadores pueden probar y mejorar métodos para detectar tales comportamientos en tiempo real.

Para encontrar la mejor manera de detectar acciones de lanzamiento, se comparan varias técnicas en visión por computadora. Estas técnicas son conocidas como extractores de características. Se prueban tres métodos: la red Convolucional 3D (C3D), la red Inflated 3D ConvNet (I3D) y la Red Multi-Fibra (MFNet). Cada una de estas redes procesa los datos de video de manera diferente, enfocándose en varios aspectos del movimiento y la apariencia.

Además de comparar estas redes, los investigadores experimentaron con diferentes Métodos de entrenamiento para encontrar el enfoque más efectivo para la Detección de Anomalías. Descubrieron que cambiar el optimizador utilizado durante el entrenamiento tuvo un impacto notable en los resultados. El optimizador Adam llevó a un mejor rendimiento que el optimizador Adadelta.

El objetivo de la investigación es mejorar la seguridad pública mediante la automatización de la detección de acciones de lanzamiento en las grabaciones de vigilancia. Esto implica no solo reconocer los actos en sí, sino también considerar el contexto del entorno del tráfico. Al enfocarse en acciones que se desvían de la norma, se pueden identificar comportamientos peligrosos de manera más efectiva.

La Importancia de la Detección de Anomalías

La detección de anomalías se refiere a identificar comportamientos que no encajan en patrones esperados. En el contexto de la vigilancia, esto significa reconocer eventos que podrían señalar un problema, como accidentes o actividades ilegales. El monitoreo tradicional depende en gran medida de operadores humanos, que pueden sentirse rápidamente abrumados por la cantidad de material que necesitan revisar. Al utilizar sistemas de detección automatizada, es posible mejorar la seguridad y reducir la carga sobre los monitores humanos.

Las anomalías en el tráfico pueden incluir accidentes, conducción agresiva o comportamiento inusual de los peatones. Aunque tales eventos son raros, tienen consecuencias significativas para la seguridad pública. Por lo tanto, es crucial desarrollar sistemas que puedan detectar automáticamente estos incidentes para mejorar la efectividad general de las operaciones de vigilancia.

Una anomalía específica que ha recibido poca atención es el acto de lanzar objetos en entornos de tráfico. Este comportamiento puede llevar a situaciones peligrosas y por lo tanto merece una mayor investigación. La falta de investigación y conjuntos de datos existentes centrados en este tipo de comportamiento destaca la necesidad de estudios específicos para cerrar esta brecha.

El proyecto tiene como objetivo desarrollar un sistema de detección exhaustivo para acciones de lanzamiento mediante la recopilación y análisis de datos de video. Esto implicará crear un nuevo conjunto de datos, probar varias técnicas de detección y mejorar los métodos de entrenamiento.

El Nuevo Conjunto de Datos de Acciones de Lanzamiento

El primer paso en esta investigación consistió en compilar el conjunto de datos "Acciones de Lanzamiento". Este conjunto incluye 271 videos de participantes del tráfico realizando acciones de lanzamiento, junto con 130 videos normales sin acciones de lanzamiento. Los videos se dividen en categorías según el tipo de participante involucrado, como autos, bicicletas y peatones. Cada video de lanzamiento está etiquetado como 'peligroso' o 'seguro' según si el objeto es lanzado hacia otro participante.

Los videos en este conjunto de datos no solo son diversos en contenido, sino también en los tipos de objetos que se lanzan. Esto incluye varias formas, tamaños y colores. Algunos objetos mantienen su forma durante el lanzamiento, como un balón de fútbol, mientras que otros pueden cambiar de forma, como un suéter o una bolsa de plástico. Esta variación asegura que el conjunto de datos pueda entrenar modelos para reconocer una amplia gama de acciones de lanzamiento.

Al preparar el conjunto de datos, los investigadores también se enfocaron en anotar las grabaciones para asegurar etiquetas precisas. Esto significa definir el inicio y el final de cada acción de lanzamiento en los videos de prueba. Al establecer criterios claros para estas acciones, el conjunto de datos proporcionará datos confiables para entrenar modelos de detección.

Para evaluar adecuadamente el rendimiento de los métodos de detección, el conjunto de datos se divide en conjuntos de entrenamiento y prueba. Esto permite que los modelos aprendan de un conjunto de videos mientras se evalúan en otro. El conjunto de entrenamiento incluye 87 videos normales y 180 videos de lanzamiento, mientras que el conjunto de prueba tiene 43 videos normales y 91 videos de lanzamiento.

Comparando Técnicas de Detección

Con el conjunto de datos listo, el siguiente paso consiste en comparar diferentes extractores de características para encontrar el método más efectivo para detectar acciones de lanzamiento. Cada extractor de características aborda el procesamiento de video de manera diferente, enfocándose en varios aspectos del material para identificar anomalías.

  1. Red C3D: Esta red fue una de las primeras en aplicar capas convolucionales 3D para el análisis de video. Captura información temporal al procesar los fotogramas de video como un bloque de datos. Sin embargo, puede tener dificultades para capturar detalles más finos en escenarios complejos.

  2. Red I3D: Esta red se basa en el modelo C3D anterior pero incorpora técnicas más avanzadas. Se centra en capturar características de alto nivel de los clips de video, lo que resulta en un mejor rendimiento al identificar acciones.

  3. Red MFNet: Un enfoque más nuevo que ha mostrado resultados prometedores en tareas de reconocimiento de acciones. Su diseño permite un procesamiento eficiente, requiriendo menos cálculos mientras aún ofrece un rendimiento sólido.

Al evaluar estas redes en varios escenarios, los investigadores pueden identificar qué métodos sobresalen en la detección de acciones de lanzamiento. El rendimiento de cada red se evaluará en función de una métrica llamada área bajo la curva de Característica Operativa del Receptor (ROC). Esta métrica ofrece información sobre qué tan bien el modelo distingue entre comportamientos normales y anómalos.

Impacto de los Métodos de Entrenamiento

Una vez que se compararon las redes de extracción de características, los investigadores analizaron los métodos de entrenamiento utilizados para desarrollar los modelos de detección. Un aspecto clave fue el optimizador utilizado durante el entrenamiento. Se probaron dos optimizadores: Adam y Adadelta. Los resultados mostraron que el optimizador Adam superó constantemente a Adadelta, lo que llevó a un mejor rendimiento del modelo y tiempos de entrenamiento más rápidos.

Otra área de exploración fue el uso de aumentación de datos. Al aplicar diversas modificaciones a los videos originales, como agregar ruido o cambiar colores, los investigadores intentaron crear una gama más amplia de escenarios de entrenamiento. Esto permite que el modelo generalice mejor a diferentes situaciones que puede encontrar en entornos del mundo real.

Evaluación de Resultados

Después de comparar diferentes extractores de características y optimizar los métodos de entrenamiento, el siguiente paso fue evaluar los resultados obtenidos de los diversos modelos. Esto implicó probar los modelos tanto en el conjunto de datos de Acciones de Lanzamiento como en el conjunto de datos UCF-Crime, que es un conjunto de datos público que se centra en varios tipos de anomalías en entornos urbanos.

El objetivo principal era evaluar qué tan bien los modelos podían identificar acciones de lanzamiento en el contexto de otras anomalías. Los hallazgos indicaron que, aunque los modelos se desempeñaron bien en general, todavía había áreas de mejora, especialmente en lo que respecta a las acciones de lanzamiento relacionadas con automóviles, que tendían a ser más difíciles de detectar.

Conclusiones y Trabajo Futuro

La investigación presenta valiosas perspectivas sobre la detección de objetos lanzados en entornos de tráfico a través de la vigilancia de video. La creación del conjunto de datos de Acciones de Lanzamiento llena una brecha significativa en los datos disponibles para este tipo de detección de anomalías. Al comparar diferentes técnicas de detección y optimizar los métodos de entrenamiento, el proyecto muestra un gran potencial para mejorar la seguridad pública.

En el futuro, el enfoque estará en refinar las técnicas de detección y explorar conjuntos de datos adicionales. Al continuar recopilando datos de varios escenarios de tráfico, el modelo puede mejorar sus capacidades para reconocer acciones de lanzamiento distintas, permitiendo un monitoreo más efectivo de la seguridad pública.

En última instancia, este trabajo busca contribuir al desarrollo de sistemas de vigilancia más inteligentes que puedan detectar automáticamente comportamientos peligrosos, asegurando un entorno más seguro para todos los usuarios de la carretera.

Fuente original

Título: Detection of Object Throwing Behavior in Surveillance Videos

Resumen: Anomalous behavior detection is a challenging research area within computer vision. Progress in this area enables automated detection of dangerous behavior using surveillance camera feeds. A dangerous behavior that is often overlooked in other research is the throwing action in traffic flow, which is one of the unique requirements of our Smart City project to enhance public safety. This paper proposes a solution for throwing action detection in surveillance videos using deep learning. At present, datasets for throwing actions are not publicly available. To address the use-case of our Smart City project, we first generate the novel public 'Throwing Action' dataset, consisting of 271 videos of throwing actions performed by traffic participants, such as pedestrians, bicyclists, and car drivers, and 130 normal videos without throwing actions. Second, we compare the performance of different feature extractors for our anomaly detection method on the UCF-Crime and Throwing-Action datasets. The explored feature extractors are the Convolutional 3D (C3D) network, the Inflated 3D ConvNet (I3D) network, and the Multi-Fiber Network (MFNet). Finally, the performance of the anomaly detection algorithm is improved by applying the Adam optimizer instead of Adadelta, and proposing a mean normal loss function that covers the multitude of normal situations in traffic. Both aspects yield better anomaly detection performance. Besides this, the proposed mean normal loss function lowers the false alarm rate on the combined dataset. The experimental results reach an area under the ROC curve of 86.10 for the Throwing-Action dataset, and 80.13 on the combined dataset, respectively.

Autores: Ivo P. C. Kersten, Erkut Akdag, Egor Bondarev, Peter H. N. De With

Última actualización: 2024-03-11 00:00:00

Idioma: English

Fuente URL: https://arxiv.org/abs/2403.06552

Fuente PDF: https://arxiv.org/pdf/2403.06552

Licencia: https://creativecommons.org/licenses/by/4.0/

Cambios: Este resumen se ha elaborado con la ayuda de AI y puede contener imprecisiones. Para obtener información precisa, consulte los documentos originales enlazados aquí.

Gracias a arxiv por el uso de su interoperabilidad de acceso abierto.

Más de autores

Artículos similares