Simple Science

Ciencia de vanguardia explicada de forma sencilla

# Informática # Visión por Computador y Reconocimiento de Patrones # Inteligencia artificial

Reconociendo el comportamiento de manejo distraído con IA

Un sistema que detecta acciones de conducción distraída usando análisis de video avanzado.

Quang Vinh Nguyen, Vo Hoang Thanh Son, Chau Truong Vinh Hoang, Duc Duy Nguyen, Nhat Huy Nguyen Minh, Soo-Hyung Kim

― 10 minilectura


IA para detección de IA para detección de conducción distraída usando análisis de video. comportamientos de conducción distraída Un sistema para identificar
Tabla de contenidos

La conducción distraída es como tratar de malabarear mientras montas un monociclo: no es la mejor idea. En EE. UU., más de 3,500 personas pierden la vida cada año porque los conductores quitan la vista del camino para revisar sus teléfonos, comer hamburguesas o discutir con el GPS. Puede que pienses que esos son muchos accidentes causados por la conducción distraída, y tienes razón. Por eso, los investigadores se están zambullendo en el mundo de los videos de conducción naturalista para ver cómo se comportan los conductores cuando no prestan atención completa. Se han dado cuenta de que usar aprendizaje profundo puede ayudar a identificar comportamientos arriesgados en tiempo real.

Una de las competencias emocionantes que hay es el AI City Challenge 2024, donde mentes brillantes se unen para trabajar en el Reconocimiento de Acciones de conducción distraída. El desafío utiliza videos sintéticos capturados desde tres cámaras diferentes dentro de un auto. ¿El objetivo? Detectar comportamientos distraídos como enviar mensajes de texto o alcanzar algo en el asiento trasero antes de que las cosas se salgan de control.

Desafíos en el Reconocimiento de Acciones

Desafortunadamente, detectar la conducción distraída no es tan fácil. Hay un montón de investigaciones sobre esto, y aunque muchos métodos funcionan bastante bien, no son perfectos. El primer problema es que el conjunto de datos tiene solo 16 categorías de comportamiento, lo cual no es lo suficientemente diverso. Es como intentar hacer un batido con solo un tipo de fruta: un poco aburrido, ¿verdad? El segundo problema es que los modelos tienen que identificar acciones desde diferentes ángulos de cámara, lo que puede complicarse. A veces, es difícil distinguir entre acciones que se ven similares pero no son exactamente lo mismo.

Además, los modelos a veces se encuentran con problemas cuando intentan usar la similitud en la visualización para las acciones. Se confunden y pueden mezclar las acciones, como cuando accidentalmente agarras sal en vez de azúcar para tu café.

Por último, la mayoría de los modelos dependen demasiado de lo que creen que es la respuesta correcta basada en puntajes de probabilidad, lo que puede llevar a decisiones erróneas cuando los puntajes están cerca. Es como elegir entre dos gemelos idénticos: se ven tan similares que es desconcertante.

Nuestro Enfoque

Para abordar estos desafíos, creamos un sistema de tres partes para reconocer acciones de conducción distraída. Primero, usamos un modelo de aprendizaje auto-supervisado, que suena sofisticado, pero básicamente significa que aprende patrones de los datos por sí mismo sin necesitar un maestro. Este modelo puede manejar el reconocimiento de comportamientos distraídos a partir de videos que muestran a los conductores en condiciones naturales.

Luego, desarrollamos una estrategia de conjunto que combina información de las tres vistas de la cámara para hacer predicciones más precisas. Piensa en ello como armar un rompecabezas: cada vista de cámara da una pieza diferente de la imagen, y cuando las juntas, obtienes una vista más clara de lo que está sucediendo.

Finalmente, añadimos un paso de post-procesamiento condicional para refinar aún más los resultados. Esta parte revisa las predicciones más cuidadosamente, ayudándonos a encontrar las acciones y sus marcos de tiempo con más precisión.

Reconocimiento de Acciones: Cómo Funciona

El reconocimiento de acciones se trata de averiguar qué está pasando en un video. Podemos pensarlo como asignar etiquetas a cada clip según las actividades que vemos. Los investigadores han trabajado duro a lo largo de los años para mejorar los métodos para esta tarea. Se centran principalmente en usar herramientas de aprendizaje profundo para clasificar videos, que es muy parecido a enseñar a una computadora a entender y categorizar lo que ve.

A lo largo del tiempo, han surgido diferentes enfoques. Algunos métodos se enfocan en analizar cuadros individuales, mientras que otros intentan captar cómo cambian las cosas con el tiempo. Recientemente, los modelos avanzados que usan algo llamado Transformers han ganado popularidad, ya que pueden manejar datos de video de una manera inteligente.

Conociendo la Localización Temporal de Acciones

Ahora, hablemos de otro aspecto importante: la localización temporal de acciones. Este término complicado se refiere a averiguar cuándo ocurre una acción en un video y cuánto tiempo dura. Imagínalo como poder señalar el momento exacto en una película cuando alguien derrama su bebida: eso es lo que hace la localización temporal de acciones.

Tradicionalmente, un método proponía primero los segmentos de acción y luego identificaba a qué categoría pertenecía cada segmento. Pero eso puede ser limitante porque asume que los límites de la acción permanecen sin cambios durante la clasificación.

Los métodos más nuevos combinan la identificación y la localización en un solo paso. Esto elimina el problema de los límites fijos y proporciona un proceso más fluido. Varios estudios han adoptado este método recientemente, utilizando tecnologías más avanzadas como los Transformers para extraer representaciones de video.

El Sistema de Reconocimiento de Comportamiento de Conductores Distraídos

Nuestro sistema diseñado para reconocer comportamientos de conducción distraída tiene tres componentes principales: reconocimiento de acciones, estrategia de conjunto y post-procesamiento condicional.

Reconocimiento de Acciones

Para empezar, utilizamos un modelo de reconocimiento de acciones basado en aprendizaje auto-supervisado. Este modelo analiza videos cortos de conductores e identifica comportamientos distractores. Recogemos grabaciones de video con conductores haciendo diversas actividades distractoras, como tomarse una selfie, comiendo snacks o alcanzando algo en el asiento trasero, que pueden llevar a problemas.

Estrategia de Conjunto de Múltiples Vistas

La siguiente parte de nuestro sistema se ocupa de combinar predicciones de diferentes vistas de cámara. Esto es crucial porque diferentes ángulos pueden proporcionar diferentes perspectivas. Por ejemplo, la cámara del tablero captura la cara del conductor, mientras que las cámaras de retrovisor y del lado derecho ofrecen ángulos alternativos y revelan diferentes acciones.

Al combinar las predicciones, podemos obtener una imagen más completa de lo que está pasando, lo que ayuda a mejorar la precisión. Es como tener a unos amigos que te ayudan a identificar a una celebridad en una habitación llena de gente: cada uno de ellos podría ver algo que tú no notaste.

Post-Procesamiento Condicional

Por último, tenemos nuestros pasos de post-procesamiento condicional. Esta parte asegura que identificamos con precisión las acciones y determinamos cuándo ocurren en los videos. Así es como funciona:

  1. Fusión Condicional: Este paso analiza las clases de acción más probables y fusiona las similares, filtrando el ruido de las predicciones incorrectas. Es como un portero en un club decidiendo quién entra y quién no según su atuendo: solo las mejores predicciones pasan.

  2. Decisión Condicional: Este paso se trata de elegir los segmentos de tiempo más confiables de varias predicciones de la misma clase. Por ejemplo, si dos segmentos sugieren que alguien está alcanzando algo atrás, combina sus fortalezas para crear el marco temporal más preciso.

  3. Restauración de Etiquetas Perdidas: A veces, algunas acciones no se detectan adecuadamente. Este paso busca esas etiquetas faltantes y trata de restaurarlas, asegurando que tengamos una predicción completa a través de las 16 clases de acción.

Conjuntos de Datos y Evaluación

Nuestro proceso de evaluación depende de un conjunto de datos lleno de grabaciones de 99 conductores diferentes. Cada conductor es filmado haciendo 16 actividades distractoras, con grabaciones que capturan tanto la conducción distraída como la no distraída. El uso de múltiples perspectivas de cámara brinda una visión holística de cada sesión de conducción, ayudando a los investigadores a captar varios factores distractores.

El AI City Challenge divide los datos en dos partes: un conjunto de entrenamiento y un conjunto de prueba. El conjunto de entrenamiento contiene "A1" con etiquetas verdaderas, mientras que el conjunto de prueba "A2" es para evaluar el rendimiento.

Medidas de Precisión

Para determinar qué tan bien funcionan nuestros modelos, usamos diferentes métricas. Para el reconocimiento de acciones, verificamos la precisión comparando las etiquetas predichas con las etiquetas reales. Una mayor precisión significa que hicimos un mejor trabajo.

Para la localización temporal de acciones, medimos qué tan bien los segmentos de tiempo predichos se superponen con los segmentos reales, dándonos una idea de qué tan precisamente estamos localizando las acciones.

Detalles de Implementación

Usamos el marco de trabajo PyTorch para construir nuestros modelos. Esta herramienta de código abierto es popular entre los investigadores por su flexibilidad y facilidad de uso. Ejecutar nuestros experimentos requería hardware potente, con dos tarjetas gráficas RTX 3090 de alta potencia.

Durante el entrenamiento, modificamos y ajustamos nuestro modelo para asegurarnos de obtener los mejores resultados posibles. Al recortar cada video de entrada a una serie de clips cortos de 64 cuadros, los alimentamos a nuestro modelo, optimizando durante 20 épocas para cada vista de cámara.

Resultados

Al analizar los datos, descubrimos que diferentes vistas de cámara ofrecen ventajas variadas para diferentes clases. Por ejemplo, la vista del lado derecho se destacó en reconocer acciones como “controlar el panel” o “recoger del suelo.” La vista del tablero funcionó de maravilla para identificar acciones como “beber” y “comer,” mientras que la vista trasera también fue buena para algunas acciones.

Al combinar toda esta información, vimos mejoras en la precisión de reconocimiento que dejaron atrás a los modelos que usaban solo una vista de cámara. La combinación es esencial, ya que descubrimos que incluso las mejores vistas de cámara individuales se quedaban cortas cuando se usaban solas.

En la tabla de clasificación pública del AI City Challenge, nuestro método ocupó el sexto lugar para la localización temporal de acciones con resultados impresionantes. Logramos superar a muchos competidores y mantenernos cerca de los mejores métodos.

Conclusión

En resumen, hemos creado un sistema de reconocimiento condicional para abordar la localización del comportamiento de conducción distraída. Al usar un modelo que aprende de los datos por sí mismo, combinar perspectivas de múltiples cámaras y refinar nuestras predicciones a través de pasos de post-procesamiento condicional, logramos resultados sólidos. Nuestro enfoque no solo mejoró la precisión, sino que también marcó un paso significativo en la comprensión de la conducción distraída.

Al final, podríamos estar en camino de asegurar carreteras más seguras reconociendo las señales de conducción distraída antes de que las cosas se pongan feas. Cuando se trata de tecnología, siempre estamos listos para el próximo desafío, ¡y quién sabe qué más descubriremos en el mundo de la seguridad al conducir!

Fuente original

Título: Rethinking Top Probability from Multi-view for Distracted Driver Behaviour Localization

Resumen: Naturalistic driving action localization task aims to recognize and comprehend human behaviors and actions from video data captured during real-world driving scenarios. Previous studies have shown great action localization performance by applying a recognition model followed by probability-based post-processing. Nevertheless, the probabilities provided by the recognition model frequently contain confused information causing challenge for post-processing. In this work, we adopt an action recognition model based on self-supervise learning to detect distracted activities and give potential action probabilities. Subsequently, a constraint ensemble strategy takes advantages of multi-camera views to provide robust predictions. Finally, we introduce a conditional post-processing operation to locate distracted behaviours and action temporal boundaries precisely. Experimenting on test set A2, our method obtains the sixth position on the public leaderboard of track 3 of the 2024 AI City Challenge.

Autores: Quang Vinh Nguyen, Vo Hoang Thanh Son, Chau Truong Vinh Hoang, Duc Duy Nguyen, Nhat Huy Nguyen Minh, Soo-Hyung Kim

Última actualización: 2024-11-19 00:00:00

Idioma: English

Fuente URL: https://arxiv.org/abs/2411.12525

Fuente PDF: https://arxiv.org/pdf/2411.12525

Licencia: https://creativecommons.org/licenses/by/4.0/

Cambios: Este resumen se ha elaborado con la ayuda de AI y puede contener imprecisiones. Para obtener información precisa, consulte los documentos originales enlazados aquí.

Gracias a arxiv por el uso de su interoperabilidad de acceso abierto.

Artículos similares