Sci Simple

New Science Research Articles Everyday

# Informática # Visión por Computador y Reconocimiento de Patrones

Transformando el seguimiento de objetos con BEV-SUSHI

Un nuevo sistema que rastrea objetos usando múltiples cámaras en tiempo real.

Yizhou Wang, Tim Meinhardt, Orcun Cetintas, Cheng-Yen Yang, Sameer Satish Pusegaonkar, Benjamin Missaoui, Sujit Biswas, Zheng Tang, Laura Leal-Taixé

― 5 minilectura


BEV-SUSHI: Una Revolución BEV-SUSHI: Una Revolución en el Seguimiento está aquí con BEV-SUSHI. El futuro del seguimiento de objetos ya
Tabla de contenidos

En el mundo moderno, entender objetos en un espacio usando varias cámaras es más importante que nunca, especialmente en lugares como almacenes, tiendas y hospitales. Las empresas quieren rastrear artículos y personas con más precisión. Los métodos tradicionales a menudo se pierden información vital en 3D porque solo se enfocan en imágenes en 2D de una sola cámara a la vez. Este artículo habla sobre un nuevo sistema que integra todas esas vistas de las cámaras para crear una imagen más clara de lo que está pasando en un espacio.

El Problema con los Métodos Existentes

La mayoría de los sistemas existentes detectan y rastrean objetos viendo cada vista de cámara por separado. Esto a menudo lleva a problemas. Por ejemplo, dos cámaras pueden ver el mismo objeto desde diferentes ángulos, pero sin una forma adecuada de comparar las vistas, podrían pensar que hay dos objetos diferentes. Esto puede ser especialmente complicado cuando algo está bloqueando la vista o cuando la luz no es buena. La integración de datos espaciales 3D en estos sistemas no es solo un buen extra; es esencial para su precisión y fiabilidad.

El Nuevo Enfoque: BEV-SUSHI

Aquí viene BEV-SUSHI, un sistema diseñado para enfrentar estos desafíos. ¿Qué hace BEV-SUSHI? Primero combina imágenes de varias cámaras, considerando las configuraciones de cada cámara, para saber dónde están las cosas en un espacio 3D. Luego usa métodos avanzados de Seguimiento para vigilar esos objetos a lo largo del tiempo. Esto significa que incluso si algo bloquea la vista un momento, BEV-SUSHI aún puede rastrearlo.

¿Por Qué Es Esto Importante?

Imagina una tienda llena de gente donde quieres rastrear cómo se mueven los clientes. Pon cámaras por todas partes, pero cada cámara solo cuenta una parte de la historia. Si no juntas toda esa información, podrías pensar que un cliente ha desaparecido cuando en realidad solo ha pasado de la vista de una cámara a otra. Esto no es solo un pequeño problema; puede afectar la gestión de inventario, el servicio al cliente e incluso la seguridad.

La Magia de la Vista de Pájaro

El sistema utiliza una perspectiva de vista de pájaro, lo que permite a los usuarios ver una vista desde arriba del área en cuestión. Este punto de vista facilita trazar los movimientos de varios objetos, dando una imagen completa. Piénsalo como una partida de ajedrez; cuando miras el tablero desde arriba, puedes ver cada pieza y planear mejor tus movimientos.

¿Cómo Funciona BEV-SUSHI?

  1. Agregación de Imágenes: Primero, BEV-SUSHI recolecta imágenes de todas las cámaras. Esto se hace considerando cómo está configurada cada cámara.
  2. Detección 3D: Con las imágenes recolectadas, determina dónde están los objetos en el espacio 3D. Esto es crucial porque significa que el mismo objeto puede ser reconocido sin importar qué cámara lo vea.
  3. Seguimiento: Después de identificar los objetos, BEV-SUSHI los rastrea a lo largo del tiempo usando sistemas especializados. Si un objeto sale de la vista, el sistema aún lo recuerda.

Generalización a Diferentes Escenas

BEV-SUSHI está diseñado para ser flexible, lo que significa que funciona bien en varios entornos—como almacenes, tiendas minoristas o incluso hospitales—sin necesitar muchos cambios. Esta adaptabilidad es vital en situaciones del mundo real donde las cosas están siempre cambiando.

Los Desafíos del Seguimiento

Rastrear objetos durante largos períodos puede ser complicado. Los objetos pueden esconderse detrás de otros, o pueden salir de vista temporalmente. BEV-SUSHI aborda estos problemas usando técnicas avanzadas de seguimiento que han demostrado ser muy efectivas.

Por Qué Importan las GNNs

Una de las características destacadas de BEV-SUSHI es su uso de Redes Neuronales de Grafos (GNNs) para el seguimiento. Las GNNs ayudan a conectar los puntos (figurativamente hablando) entre lo que las cámaras ven. Permiten que el sistema mantenga el seguimiento de varios objetos incluso si quedan ocultos o salen de vista temporalmente.

Resultados: ¿Qué Tan Bien Funciona?

Entonces, ¿cómo se desempeña BEV-SUSHI? En pruebas contra otros sistemas, ha demostrado ser excelente. No solo detecta objetos bien, sino que también los rastrea a lo largo del tiempo, incluso en condiciones desafiantes, como áreas concurridas.

Los Conjuntos de Datos Utilizados

Para las pruebas, BEV-SUSHI fue evaluado usando grandes conjuntos de datos que incluían muchas escenas y escenarios. Estos conjuntos de datos se recolectan tanto de situaciones de la vida real como de entornos generados por computadora. Ayudan a garantizar que el sistema pueda manejar varias condiciones.

Conclusión

En resumen, BEV-SUSHI es una herramienta poderosa para rastrear objetos en entornos vigilados por múltiples cámaras. Al usar un enfoque integral que integra datos, mejora enormemente la eficiencia de detección y seguimiento. Ya sea en una tienda concurrida o en un almacén complejo, BEV-SUSHI puede ayudar a las empresas a mantener mejor el control de sus activos y clientes, asegurando un funcionamiento más fluido en general. Y quién sabe, tal vez algún día nos ayude a encontrar esos calcetines perdidos que siempre parecen desaparecer en la ropa sucia.

Fuente original

Título: BEV-SUSHI: Multi-Target Multi-Camera 3D Detection and Tracking in Bird's-Eye View

Resumen: Object perception from multi-view cameras is crucial for intelligent systems, particularly in indoor environments, e.g., warehouses, retail stores, and hospitals. Most traditional multi-target multi-camera (MTMC) detection and tracking methods rely on 2D object detection, single-view multi-object tracking (MOT), and cross-view re-identification (ReID) techniques, without properly handling important 3D information by multi-view image aggregation. In this paper, we propose a 3D object detection and tracking framework, named BEV-SUSHI, which first aggregates multi-view images with necessary camera calibration parameters to obtain 3D object detections in bird's-eye view (BEV). Then, we introduce hierarchical graph neural networks (GNNs) to track these 3D detections in BEV for MTMC tracking results. Unlike existing methods, BEV-SUSHI has impressive generalizability across different scenes and diverse camera settings, with exceptional capability for long-term association handling. As a result, our proposed BEV-SUSHI establishes the new state-of-the-art on the AICity'24 dataset with 81.22 HOTA, and 95.6 IDF1 on the WildTrack dataset.

Autores: Yizhou Wang, Tim Meinhardt, Orcun Cetintas, Cheng-Yen Yang, Sameer Satish Pusegaonkar, Benjamin Missaoui, Sujit Biswas, Zheng Tang, Laura Leal-Taixé

Última actualización: 2024-12-07 00:00:00

Idioma: English

Fuente URL: https://arxiv.org/abs/2412.00692

Fuente PDF: https://arxiv.org/pdf/2412.00692

Licencia: https://creativecommons.org/licenses/by/4.0/

Cambios: Este resumen se ha elaborado con la ayuda de AI y puede contener imprecisiones. Para obtener información precisa, consulte los documentos originales enlazados aquí.

Gracias a arxiv por el uso de su interoperabilidad de acceso abierto.

Artículos similares