Seguimiento ocular eficiente con cámaras de eventos
Un nuevo método para el seguimiento ocular en tiempo real usando cámaras de evento y redes ligeras.
― 8 minilectura
Tabla de contenidos
- ¿Qué son las Cámaras de Eventos?
- Desafíos en el Procesamiento de Datos de Eventos
- Nuestro Enfoque
- Arquitectura ligera
- Inferencia en Línea
- Escasez en las Activaciones
- Aumento de Datos
- Transformaciones Espaciales
- Transformaciones Temporales
- Arquitectura de la Red
- Convoluciones Causales
- Normalización Mixta
- Resultados
- Métricas de Rendimiento
- Impacto del Aumento de Datos
- Ganancias de Eficiencia
- Conclusión
- Fuente original
- Enlaces de referencia
En los últimos años, ha habido un interés creciente en usar cámaras de eventos para tareas como el seguimiento ocular. Las cámaras de eventos son sensores especiales que capturan cambios en el brillo muy rápido. A diferencia de las cámaras tradicionales que toman una serie de imágenes fijas, las cámaras de eventos solo envían señales cuando algo cambia en la escena. Esto les permite capturar el movimiento de manera muy precisa. Sin embargo, trabajar con los datos de estas cámaras puede ser complicado, especialmente cuando se intenta obtener resultados rápido en dispositivos con poder de cómputo limitado.
Este artículo habla de un nuevo enfoque que utiliza una red espaciotemporal ligera para el seguimiento ocular con cámaras de eventos. El objetivo es que el sistema sea lo suficientemente eficiente para funcionar en tiempo real en dispositivos que no tienen muchos recursos. Vamos a explorar cómo se desarrolló este método, cómo funciona y cuáles fueron los resultados en las pruebas.
¿Qué son las Cámaras de Eventos?
Las cámaras de eventos son únicas en comparación con las cámaras estándar. En lugar de capturar una imagen completa a intervalos fijos, ellos reportan cambios en la intensidad a nivel de píxel. Por ejemplo, si una luz de repente brilla más, la cámara registrará ese cambio de inmediato. Esto significa que las cámaras de eventos pueden manejar movimientos rápidos y proporcionar una resolución temporal más alta en comparación con las cámaras convencionales.
La salida de una Cámara de Eventos consiste en pequeñas piezas de datos llamadas eventos. Cada evento representa un cambio en el brillo en un momento y lugar específicos. Estos datos son muy escasos porque solo registran cambios en lugar de llenar imágenes enteras. El desafío radica en cómo procesar estos datos escasos de manera efectiva para capturar el movimiento ocular.
Desafíos en el Procesamiento de Datos de Eventos
Cuando se utilizan métodos convencionales para analizar los datos de eventos, es común convertir el flujo de eventos en imágenes. Este proceso, llamado binning, puede resultar en la pérdida de información de tiempo importante. La transformación puede ser un intercambio; hacer los cuadros demasiado cortos podría perder detalles, mientras que hacerlos demasiado largos podría anular los beneficios de velocidad que ofrecen las cámaras de eventos.
Las redes neuronales estándar, originalmente diseñadas para imágenes tradicionales, a menudo tienen dificultades para capturar las ricas características temporales de los datos de eventos. El proceso de colapsar los datos de eventos en cuadros significa que se puede pasar por alto información de tiempo importante. Además, las redes tradicionales tienden a funcionar mejor con un número fijo de cuadros, lo que las hace poco adecuadas para la Inferencia en línea donde los datos están en constante flujo.
Nuestro Enfoque
Para abordar estos desafíos, desarrollamos un nuevo enfoque que combina varias técnicas para procesar los datos de eventos de manera efectiva. La solución se basa en una red convolucional espaciotemporal. Vamos a desglosar lo que esto significa.
Arquitectura ligera
El primer paso en nuestro enfoque fue crear un diseño de red simple y eficiente. Buscamos una arquitectura que pudiera funcionar sin problemas en dispositivos con recursos limitados. La red consiste en varias capas que realizan operaciones tanto espaciales como temporales, pero nos centramos en mantener estas operaciones ligeras. Usamos operaciones básicas como convoluciones y activaciones ReLU (Unidad Lineal Rectificada), que son sencillas y menos demandantes computacionalmente.
Inferencia en Línea
Una característica esencial de nuestro diseño es su capacidad para la inferencia en línea. Esto significa que la red puede procesar datos a medida que llegan, sin esperar a tener un conjunto completo de cuadros. Logramos esto usando buffers FIFO (Primero en Entrar, Primero en Salir), que permiten a la red manejar datos entrantes de manera eficiente, manteniendo una pequeña huella de memoria.
Escasez en las Activaciones
También introdujimos técnicas de regularización para promover la escasez en las activaciones de la red. Alentar a un gran número de salidas a ser cero, reducimos la cantidad de procesamiento necesario. Esto es especialmente importante para los datos de eventos, donde gran parte de la información a menudo no es necesaria para hacer predicciones precisas.
Con estas técnicas, nuestra red está diseñada para capturar la dinámica temporal de los datos de eventos mientras es lo suficientemente eficiente para aplicaciones en tiempo real.
Aumento de Datos
Para mejorar aún más el rendimiento, implementamos una estrategia de aumento específicamente para datos de eventos. El aumento de datos es una práctica común en el aprendizaje automático donde el conjunto de entrenamiento se expande artificialmente para incluir variaciones de los datos originales. Para los datos de eventos, utilizamos tanto transformaciones espaciales como temporales.
Transformaciones Espaciales
Las transformaciones espaciales implican ajustar la posición y escala de los eventos de una manera que puede ayudar a la red a aprender mejor. Por ejemplo, aplicamos escalamiento y rotación aleatorios a los datos de eventos. Esta estrategia ayuda al modelo a ser más robusto a diferentes condiciones de visualización y le ayuda a generalizar mejor a nuevos datos.
Transformaciones Temporales
Las transformaciones temporales son similares, pero se centran en el aspecto del tiempo de los eventos. Ajustamos las marcas de tiempo de los eventos aplicando factores de escala aleatorios. Esto puede ayudar al modelo a aprender a manejar variaciones en velocidad y tiempo al rastrear movimientos oculares.
Arquitectura de la Red
Veamos más de cerca la arquitectura de red que diseñamos. La columna vertebral de nuestra red consiste en bloques espaciotemporales. Cada bloque realiza una secuencia de operaciones, primero procesando la información temporal antes de la información espacial.
Convoluciones Causales
Usamos convoluciones causales para asegurarnos de que la red pueda hacer predicciones sin necesitar información futura. Esto es crucial para tareas como el seguimiento ocular donde se deben tomar decisiones en tiempo real basadas en los eventos actuales y pasados. En nuestra arquitectura, cada capa temporal recupera solo datos de los eventos actuales y anteriores.
Normalización Mixta
La normalización es otro aspecto crítico de nuestro diseño. Usamos una combinación de Normalización por Lotes y Normalización por Grupos. Esto permite que el modelo se beneficie de la estabilidad de la Normalización por Lotes durante el entrenamiento mientras se adapta a datos de entrada variables con la Normalización por Grupos durante la inferencia. Esta estrategia mixta mejora el rendimiento del modelo en diferentes situaciones.
Resultados
Probamos nuestro modelo en un conjunto de datos estándar para el seguimiento ocular. El conjunto de datos comprende grabaciones de múltiples sujetos con posiciones oculares etiquetadas. La métrica de evaluación utilizada fue el porcentaje de predicciones correctas dentro de cierta distancia en píxeles de las posiciones oculares reales.
Métricas de Rendimiento
Nuestro modelo logró una puntuación de 0.9898 en el conjunto de prueba. No solo funcionó de manera impresionante, sino que también mantuvo una alta precisión tanto en conjuntos de validación como en conjuntos de prueba privados. Esto muestra la efectividad de las técnicas y estrategias combinadas que implementamos en el diseño.
Impacto del Aumento de Datos
También realizamos un estudio de ablación para entender cuánto mejoró el rendimiento cada componente de nuestra estrategia de aumento de datos. Los hallazgos mostraron que las transformaciones espaciales impulsaron significativamente el rendimiento del modelo. Sin embargo, ciertas transformaciones temporales parecían tener un impacto negativo, lo que indica que es necesario ajustar cuidadosamente los parámetros de aumento.
Ganancias de Eficiencia
Uno de los objetivos clave era asegurar que nuestro modelo se mantuviera eficiente. Probamos varias configuraciones, observando factores como la resolución de entrada y la escasez de activación. Los resultados indicaron que incluso cuando reducimos significativamente la resolución de entrada, el modelo aún funcionaba bien, demostrando su robustez.
Conclusión
En resumen, presentamos una red espaciotemporal ligera diseñada para el seguimiento ocular en línea utilizando cámaras de eventos. A través de una combinación de una arquitectura simplificada, estrategias de procesamiento innovadoras y un aumento de datos dirigido, nuestro modelo logró alta precisión mientras se mantuvo lo suficientemente eficiente para aplicaciones en tiempo real.
Los avances en nuestro enfoque abren posibilidades para futuras investigaciones y posibles aplicaciones en campos como la robótica, la interacción humano-computadora y más. Al aprovechar las propiedades únicas de las cámaras de eventos y optimizar las técnicas de procesamiento, demostramos un método efectivo para rastrear movimientos oculares en tiempo real.
A medida que la tecnología continúa evolucionando, estos desarrollos representan un paso significativo hacia el aprovechamiento de los datos de eventos para una variedad de aplicaciones, allanando el camino para sistemas cada vez más sofisticados capaces de trabajar en entornos dinámicos.
Título: A Lightweight Spatiotemporal Network for Online Eye Tracking with Event Camera
Resumen: Event-based data are commonly encountered in edge computing environments where efficiency and low latency are critical. To interface with such data and leverage their rich temporal features, we propose a causal spatiotemporal convolutional network. This solution targets efficient implementation on edge-appropriate hardware with limited resources in three ways: 1) deliberately targets a simple architecture and set of operations (convolutions, ReLU activations) 2) can be configured to perform online inference efficiently via buffering of layer outputs 3) can achieve more than 90% activation sparsity through regularization during training, enabling very significant efficiency gains on event-based processors. In addition, we propose a general affine augmentation strategy acting directly on the events, which alleviates the problem of dataset scarcity for event-based systems. We apply our model on the AIS 2024 event-based eye tracking challenge, reaching a score of 0.9916 p10 accuracy on the Kaggle private testset.
Autores: Yan Ru Pei, Sasskia Brüers, Sébastien Crouzet, Douglas McLelland, Olivier Coenen
Última actualización: 2024-04-12 00:00:00
Idioma: English
Fuente URL: https://arxiv.org/abs/2404.08858
Fuente PDF: https://arxiv.org/pdf/2404.08858
Licencia: https://creativecommons.org/licenses/by/4.0/
Cambios: Este resumen se ha elaborado con la ayuda de AI y puede contener imprecisiones. Para obtener información precisa, consulte los documentos originales enlazados aquí.
Gracias a arxiv por el uso de su interoperabilidad de acceso abierto.