Simple Science

Ciencia de vanguardia explicada de forma sencilla

# Informática# Visión por Computador y Reconocimiento de Patrones

CycleCrash: Un Nuevo Conjunto de Datos para la Seguridad de los Ciclistas

El conjunto de datos CycleCrash busca mejorar la seguridad de los ciclistas a través del análisis de video.

― 11 minilectura


Revolución de Datos deRevolución de Datos deSeguridad en Ciclismociclistas.comprensión de los riesgos para losNuevo conjunto de datos mejora la
Tabla de contenidos

El ciclismo se está volviendo más popular como forma de moverse por las ciudades. Aunque es una excelente manera de mantenerse en forma y ayudar al medio ambiente, andar en bicicleta tiene sus riesgos. Desafortunadamente, muchos ciclistas se lesionan cada año, y el número de accidentes mortales ha aumentado significativamente. La mayoría de las investigaciones sobre coches autónomos no se centran mucho en los ciclistas, lo que suma al peligro. Para cambiar esto, se ha creado un nuevo conjunto de datos llamado CycleCrash. Este conjunto incluye 3,000 videos de incidentes relacionados con bicicletas, cubriendo todo, desde accidentes hasta interacciones seguras con coches. El objetivo es ayudar a mejorar la seguridad de los ciclistas mediante el desarrollo de mejores tecnologías que puedan predecir y analizar colisiones.

La Necesidad de Datos

Los estudios muestran que más de 130,000 ciclistas resultan heridos en accidentes cada año. Los accidentes mortales que involucran ciclistas han aumentado más del 50% en la última década. Mientras que el aprendizaje automático ha ayudado a mejorar la tecnología de coches autónomos, falta un conjunto de datos específico relacionado con la seguridad de los ciclistas. Los conjuntos de datos existentes a menudo incluyen bicicletas, pero no proporcionan la información necesaria para abordar los problemas que enfrentan los ciclistas en la carretera.

Algunos conjuntos de datos utilizados para vehículos autónomos incluyen datos relacionados con bicicletas. Sin embargo, el número de casos que involucran ciclistas es bastante pequeño. Por ejemplo, un conjunto de datos popular tiene solo un poco más de 1,000 cuadros con ciclistas. Esta representación limitada no ofrece suficiente información para desarrollar soluciones de seguridad específicas para los ciclistas.

Los conjuntos de datos actuales también fallan en ofrecer anotaciones completas necesarias para un análisis detallado. Por ejemplo, no siempre indican cuán arriesgoso es el comportamiento de un ciclista o cuán grave podría ser un accidente potencial. Esta falta de información hace que sea difícil crear medidas de seguridad efectivas para los ciclistas.

Presentando CycleCrash

Para abordar estos problemas, CycleCrash ofrece una solución al presentar una gran colección de videos enfocados en ciclistas en diversas situaciones. El conjunto incluye 3,000 videos, lo que lo convierte en una de las colecciones más extensas para este propósito. Estos videos capturan una variedad de interacciones que los ciclistas tienen con otros vehículos y peatones.

El conjunto de datos contiene 13 tipos de información (o anotaciones) organizadas en tres grupos principales: factores relacionados con colisiones, relacionados con ciclistas y relacionados con la escena. Este enfoque estructurado permite a los investigadores comprender mejor los desafíos que enfrentan los ciclistas en la carretera. Además, CycleCrash permite nueve tareas específicas relacionadas con la predicción de colisiones y la seguridad de los ciclistas, convirtiéndolo en un recurso vital para desarrollar nuevas tecnologías de seguridad.

Proceso de Recolección de Datos

CycleCrash reúne videos de varias plataformas en línea como YouTube y Facebook, enfocándose en clips que involucran ciclistas. Los criterios de selección para incluir videos son específicos:

  1. Videos que muestran una colisión o casi colisión entre un ciclista y un vehículo de motor.
  2. Videos que muestran a un ciclista chocando con otro ciclista o un peatón.
  3. Videos donde un ciclista se cae debido a obstáculos como baches o problemas mecánicos.
  4. Clips que demuestran comportamientos arriesgados de los ciclistas, destacando riesgos potenciales de colisión.
  5. Videos que muestran a ciclistas navegando de manera segura en el tráfico urbano sin comportamientos arriesgados.

En total, el conjunto de datos contiene 2,000 videos que no tienen accidentes y 1,000 que muestran diferentes niveles de accidentes potenciales. El uso de videos de dashcam de vehículos ofrece una vista más realista de las condiciones de ciclismo en comparación con cámaras de posición fija como las de CCTV.

Estructura del Conjunto de Datos

El conjunto de datos CycleCrash está organizado como una lista de enlaces de video, junto con tiempos de inicio y fin específicos para eventos importantes dentro de esos videos. Los videos provienen de publicaciones públicas para asegurar que no infrinjan la privacidad de nadie. El conjunto de datos también incluye un kit de herramientas que ayuda a los usuarios a descargar y procesar estos videos de manera consistente.

Los videos pasan por varios pasos de procesamiento:

  1. Recorte Temporal: Cada video se recorta para centrarse solo en los clips relevantes.
  2. Conversión de Archivos: Todos los videos se convierten a un formato uniforme.
  3. Recorte y Escalado Espacial: Los videos se redimensionan a una resolución estándar.
  4. Ajuste de Tasa de Cuadros: Se ajustan los videos para asegurar que se reproduzcan a una velocidad consistente.
  5. Normalización de Color: Los videos pasan por un proceso para estandarizar los aspectos del color.

Los detalles completos en el conjunto de datos permiten realizar diversas tareas relacionadas con la seguridad de los ciclistas.

Anotaciones

Las anotaciones en CycleCrash ayudan a clasificar y describir lo que sucede en cada video. Se dividen en tres categorías:

Anotaciones Relacionadas con Colisiones

Estas anotaciones se refieren a elementos ligados específicamente a accidentes o casi accidentes. Incluyen:

  • Preferencia de paso: Indica qué parte tenía la prioridad en la interacción.
  • Tiempo hasta la colisión: Mide el tiempo que queda antes de que ocurra una colisión potencial.
  • Tipo de objeto involucrado: Identifica qué vehículo u objeto está interactuando con el ciclista.
  • Culpa: Establece quién tiene la culpa en caso de una colisión.
  • Severidad: Clasifica cuán grave podría ser la lesión o la colisión potencial.

Anotaciones Relacionadas con Ciclistas

Estas proporcionan detalles sobre el ciclista en el video:

  • Índice de riesgo de comportamiento del ciclista: Mide cuán arriesgadas son las acciones de un ciclista.
  • Edad del ciclista: Estima la edad del ciclista según su apariencia.
  • Tipo de ciclista: Distingue entre ciclistas competitivos y recreativos.
  • Caja delimitadora del ciclista: Marca el área donde se encuentra el ciclista.
  • Dirección del ciclista: Indica a dónde se dirige el ciclista.

Anotaciones Relacionadas con la Escena

Estas detallan información relacionada con el entorno y otros vehículos:

  • Dirección del objeto involucrado: Muestra hacia dónde se mueve el vehículo.
  • Posición de la cámara: Captura el ángulo desde el que se filmó el video.
  • Vehículo ego involucrado: Identifica el vehículo que lleva la dashcam.

Este conjunto estructurado de anotaciones facilita la evaluación de diversos factores involucrados en la seguridad de los ciclistas.

Control de Calidad

Para asegurar la calidad del conjunto de datos, se seleccionaron videos usando términos de búsqueda específicos relacionados con accidentes y colisiones de bicicletas. Se hicieron verificaciones automatizadas para asegurar que los videos cumplieran con requisitos mínimos de tasa de cuadros y resolución. Después, inspectores humanos revisaron los videos para confirmar que cumplían con los criterios de selección.

Los etiquetadores que anotaron los videos fueron capacitados para seguir pautas detalladas, prestando especial atención a las normas de tráfico y el comportamiento de los ciclistas. Este enfoque exhaustivo buscaba minimizar sesgos y asegurar una etiquetamiento preciso, mejorando la confiabilidad general del conjunto de datos.

Tareas y Métricas

CycleCrash define nueve tareas críticas basadas en los datos recogidos. Aquí tienes un resumen de ellas:

  1. Predicción del Índice de Riesgo de Comportamiento del Ciclista: Estimando el nivel de riesgo del comportamiento de un ciclista y categorizándolo en clases como bajo o alto riesgo.
  2. Clasificación de Preferencia de Paso: Determinando si el ciclista tenía la preferencia de paso en una interacción.
  3. Anticipación de Colisiones con el Ciclista: Prediciendo si un evento resultará en una colisión dentro de un tiempo determinado.
  4. Predicción del Tiempo Hasta la Colisión: Estimando el momento exacto en que ocurrirá una colisión.
  5. Clasificación de Severidad: Clasificando la gravedad de un accidente potencial en categorías como seguro o de alto impacto.
  6. Clasificación de Culpa: Determinando quién fue el culpable en un accidente.
  7. Clasificación de Edad del Ciclista: Clasificando la edad del ciclista en grupos como joven, adulto o anciano.
  8. Detección de la Dirección del Ciclista: Identificando la dirección en la que se mueve el ciclista.
  9. Detección de la Dirección del Objeto Involucrado: Identificando la dirección de otros vehículos que interactúan con el ciclista.

Estas tareas están centradas en mejorar la seguridad y entender cómo los ciclistas interactúan con su entorno.

Método VidNeXt

Para analizar los datos de manera efectiva, se propuso un nuevo método llamado VidNeXt. Este enfoque utiliza técnicas modernas de aprendizaje profundo para mejorar el análisis de videos. VidNeXt combina un extractor de características y un transformador para captar mejor el flujo de información a lo largo del tiempo.

La arquitectura involucra:

  • ConvNeXt: Un componente que procesa los marcos de video para extraer características visuales.
  • Bloques de Transformer: Estos ayudan a entender cómo se relacionan los marcos entre sí a lo largo del tiempo. Se pone un enfoque especial tanto en elementos estacionarios como no estacionarios, permitiendo una mejor interpretación de escenas dinámicas.

Este método tiene como objetivo aprender las complejidades de los datos de video de manera más eficiente, mejorando la precisión de predicción en las tareas definidas dentro del conjunto de datos CycleCrash.

Experimentos y Resultados

El equipo llevó a cabo experimentos usando el conjunto de datos CycleCrash para evaluar la efectividad de VidNeXt frente a modelos existentes. Los videos se dividieron en conjuntos de entrenamiento y prueba, asegurando comparaciones justas.

Se incluyeron modelos ampliamente utilizados en la comunidad como líneas base. Estos modelos han mostrado resultados prometedores en varias tareas relacionadas con el análisis de video. Además, se probaron dos variaciones de VidNeXt para aislar el impacto de sus componentes por separado.

Los resultados demostraron que VidNeXt superó a la mayoría de los otros modelos en diversas tareas. Notablemente, destacó en la predicción del riesgo de comportamiento de ciclistas, clasificación de preferencia de paso y anticipación de colisiones. Los resultados resaltaron la eficacia de VidNeXt en el procesamiento de datos de video, demostrando que proporciona mejores ideas sobre la seguridad de los ciclistas que métodos anteriores.

Evaluación Cruzada de Conjuntos de Datos

Para probar qué tan bien los modelos funcionan con datos de diferentes fuentes, se llevó a cabo una evaluación cruzada de conjuntos de datos. Esto involucró entrenar en CycleCrash y probar en otros conjuntos de datos como CCD y DoTA, que principalmente involucran colisiones de coches. Los hallazgos mostraron que entrenar en CycleCrash resultó en un mejor desempeño al probarse en otros conjuntos de datos en comparación con el enfoque opuesto. Esto indica que CycleCrash proporciona información única y valiosa que otros conjuntos de datos carecen.

Conclusión

CycleCrash es un conjunto de datos innovador que busca mejorar la seguridad de los ciclistas a través de una mejor comprensión y predicción de riesgos de colisión. Al presentar una amplia gama de videos y anotaciones detalladas, CycleCrash sirve como un recurso vital para investigadores que desarrollan tecnologías centradas en la seguridad de los ciclistas. El método propuesto, VidNeXt, muestra resultados prometedores en el análisis de estos videos de manera efectiva, allanando el camino para futuros avances en la protección de ciclistas.

Con el aumento del ciclismo en áreas urbanas, es crucial seguir mejorando tecnologías que puedan predecir y mitigar riesgos para los ciclistas. El trabajo realizado con CycleCrash no solo destaca la necesidad de más datos en esta área, sino que también establece las bases para investigar más sobre cómo hacer que el ciclismo sea más seguro para todos.

Fuente original

Título: CycleCrash: A Dataset of Bicycle Collision Videos for Collision Prediction and Analysis

Resumen: Self-driving research often underrepresents cyclist collisions and safety. To address this, we present CycleCrash, a novel dataset consisting of 3,000 dashcam videos with 436,347 frames that capture cyclists in a range of critical situations, from collisions to safe interactions. This dataset enables 9 different cyclist collision prediction and classification tasks focusing on potentially hazardous conditions for cyclists and is annotated with collision-related, cyclist-related, and scene-related labels. Next, we propose VidNeXt, a novel method that leverages a ConvNeXt spatial encoder and a non-stationary transformer to capture the temporal dynamics of videos for the tasks defined in our dataset. To demonstrate the effectiveness of our method and create additional baselines on CycleCrash, we apply and compare 7 models along with a detailed ablation. We release the dataset and code at https://github.com/DeSinister/CycleCrash/ .

Autores: Nishq Poorav Desai, Ali Etemad, Michael Greenspan

Última actualización: Oct 30, 2024

Idioma: English

Fuente URL: https://arxiv.org/abs/2409.19942

Fuente PDF: https://arxiv.org/pdf/2409.19942

Licencia: https://creativecommons.org/licenses/by-nc-sa/4.0/

Cambios: Este resumen se ha elaborado con la ayuda de AI y puede contener imprecisiones. Para obtener información precisa, consulte los documentos originales enlazados aquí.

Gracias a arxiv por el uso de su interoperabilidad de acceso abierto.

Más de autores

Artículos similares