Helios: Reconocimiento de Gestos para Gafas Inteligentes
Helios ofrece un sistema de reconocimiento de gestos de bajo consumo para gafas inteligentes.
― 8 minilectura
Tabla de contenidos
- Características Clave de Helios
- Limitaciones de las Gafas Inteligentes Actuales
- El Cambio a Gestos de Mano
- Desafíos en el Reconocimiento de gestos
- Cómo Funciona Helios
- Contribuciones del Sistema
- Antecedentes sobre Cámaras de Eventos
- Entendiendo los Datos de Eventos
- Visión General del Sistema de Visión Máquina
- Investigación de Usuarios para Gestos
- Algoritmo de Reconocimiento de Gestos
- Entrenando el Modelo
- Resultados y Rendimiento
- Tamaño del Modelo y Consumo de Energía
- Conclusión
- Fuente original
- Enlaces de referencia
Este artículo habla de Helios, un sistema que reconoce gestos de mano usando muy poca energía, diseñado para gafas inteligentes que están siempre encendidas. A medida que la tecnología de realidad aumentada (AR) sigue avanzando, muchas gafas inteligentes actuales priorizan la comodidad y lo estético sobre la funcionalidad. Las interfaces actuales, como pantallas táctiles y comandos de voz, tienen desventajas como incomodidad, problemas de privacidad y alto consumo de batería. Helios busca ofrecer una mejor experiencia al usuario usando gestos de mano naturales que se sienten más intuitivos.
Características Clave de Helios
Helios utiliza una pequeña Cámara de Eventos que mide solo 3 mm por 4 mm y consume solo 20 mW de energía. Esta cámara reconoce gestos de mano en tiempo real, transmitiendo video para el uso típico en gafas inteligentes. Los datos de la cámara son procesados por un modelo de Aprendizaje automático que funciona en una plataforma de computación eficiente, con un consumo de energía de menos de 350 mW. Helios puede identificar siete tipos de gestos con una precisión del 91%. El sistema también es rápido, mostrando un retraso de solo 60 ms al reconocer gestos, basado en pruebas con 20 usuarios.
Limitaciones de las Gafas Inteligentes Actuales
Las gafas inteligentes exitosas, como las de Meta, se centran más en encajar la tecnología en un estilo de gafas familiar en lugar de agregar características para la computación espacial. Estas gafas permiten a los usuarios escuchar audio e interactuar con asistentes de IA, pero deben ser ligeras y durar todo el día con una sola carga de batería. Las interfaces actuales dependen principalmente de la entrada táctil y de voz. La interfaz táctil exige contacto físico, lo que puede ser incómodo durante un uso prolongado. Los controles de voz también pueden resultar incómodos para los usuarios, especialmente en público.
El Cambio a Gestos de Mano
Los gestos de mano naturales ofrecen una forma más fácil de interactuar con los dispositivos. Moviendo sus manos, los usuarios pueden realizar tareas con movimientos simples que se sienten más naturales. Los controles por gestos pueden crear una experiencia más atractiva, permitiendo interacciones más fáciles y agradables con la tecnología. Este método también puede ser más discreto que los comandos de voz, que pueden hacer que algunos usuarios se sientan cohibidos.
Reconocimiento de gestos
Desafíos en elReconocer pequeños movimientos de mano, o microgestos, plantea desafíos ya que estas acciones sutiles pueden ser difíciles de distinguir de movimientos no intencionados o ruido. Las variaciones entre diferentes usuarios añaden más complejidad a la identificación precisa de los gestos. Para superar estos obstáculos, el sistema Helios utiliza aprendizaje automático. Ha sido entrenado usando un tipo de inteligencia artificial llamada redes neuronales convolucionales (CNN), que ayuda a distinguir siete clases de gestos con alta precisión. La baja latencia es crítica para interacciones en tiempo real, especialmente en AR donde los usuarios esperan respuestas rápidas.
Cómo Funciona Helios
El sistema Helios procesa eventos capturados por una cámara compacta en lugar de depender de cámaras de video tradicionales. Mientras que las cámaras estándar capturan imágenes en intervalos fijos, la cámara de eventos solo registra cambios en la luz, creando un flujo de datos más eficiente. Esto ayuda a reducir el consumo de energía y acelerar el reconocimiento de gestos.
Helios va de flujos de eventos en bruto a reconocimiento de gestos directamente, ofreciendo una mejora significativa en comparación con otros sistemas que dependen del seguimiento esquelético. Para manejar a los usuarios que caminan mientras usan las gafas, el sistema está diseñado para ignorar activaciones falsas causadas por movimientos naturales o ruido.
Contribuciones del Sistema
Helios es notable por ser el primer sistema de reconocimiento de gestos en tiempo real que permite interacciones naturales con gafas inteligentes. El hardware está optimizado para flujos de eventos, permitiendo a los usuarios operar las gafas cómodamente sin comandos táctiles o de voz. Las pruebas realizadas muestran que los usuarios encuentran fácil de usar y efectivo la interfaz por gestos.
Antecedentes sobre Cámaras de Eventos
Las cámaras de eventos pueden operar a muy baja potencia, tan solo 3 mW, lo cual es atractivo para dispositivos usables. A diferencia de las cámaras tradicionales, que pueden tener problemas con el movimiento y las condiciones de iluminación, los sensores de eventos pueden funcionar bien en diversos entornos. Capturan cambios en el brillo por píxel, permitiendo el procesamiento en tiempo real de gestos.
Entendiendo los Datos de Eventos
Al procesar datos de eventos, generalmente se utilizan dos representaciones comunes: volúmenes de eventos y superficies de tiempo. Las superficies de tiempo capturan el momento del último evento para cada píxel, facilitando el procesamiento eficiente de datos. Sin embargo, trabajar con datos de eventos requiere métodos de aprendizaje automático especializados para aprovechar sus características únicas.
Visión General del Sistema de Visión Máquina
El sistema de visión máquina Helios está diseñado para integrarse sin problemas con gafas inteligentes. El sistema tiene dos componentes principales: una cámara de eventos que captura datos y una plataforma de computación que procesa estos datos en salidas utilizables. Esta conexión en dos partes permite al sistema lograr un alto rendimiento y un bajo consumo de energía.
La cámara utilizada en Helios cuenta con un amplio campo de visión y adaptabilidad a diversas condiciones de iluminación, lo que la hace ideal para uso con gafas inteligentes. Se conecta a un pequeño procesador que está optimizado para la eficiencia, lo que lo hace adecuado para aplicaciones móviles como gafas inteligentes.
Investigación de Usuarios para Gestos
Desarrollar una interfaz fácil de usar para gafas inteligentes implica investigar las preferencias de los usuarios para gestos. La fase inicial de pruebas involucró identificar posibles movimientos de mano para controlar funciones de medios como reproducir música. Se pidió a los usuarios que dieran su opinión sobre diferentes gestos, que luego se evaluaron por su efectividad en el control de medios.
Los gestos resultantes para Helios consisten en movimientos simples como deslizamientos y pellizcos que los usuarios encontraron cómodos y socialmente aceptables. Los gestos elegidos requerían un movimiento mínimo, permitiendo interacciones discretas en entornos públicos.
Algoritmo de Reconocimiento de Gestos
El proceso de reconocimiento de gestos en Helios implica dos pasos principales: capturar el flujo de eventos desde la cámara y convertir esos datos en un formato utilizable para el aprendizaje automático. Se seleccionaron las superficies de tiempo como la forma más efectiva de representar estos eventos.
Usando aprendizaje automático, el modelo aprende a identificar diferentes gestos basándose en los patrones de movimiento detectados en las superficies de tiempo. Al entrenar el modelo con diversas muestras de datos, se vuelve capaz de reconocer gestos en tiempo real de manera efectiva.
Entrenando el Modelo
Entrenar el modelo de Helios implicó usar un conjunto de datos simulado para enseñar al sistema a reconocer los siete gestos diferentes. Se utilizó una mezcla de gestos durante el entrenamiento, y el modelo logró un alto nivel de precisión. El proceso de entrenamiento tuvo como objetivo asegurarse de que el modelo pudiera generalizar bien a nuevas situaciones y comportamientos de usuario.
Resultados y Rendimiento
Probar el sistema Helios con usuarios en vivo permitió evaluar su precisión y eficiencia. Los usuarios realizaron diversos gestos, y se registraron las tasas de precisión y recuperación del modelo. El sistema mostró una fuerte precisión, con la mayoría de los usuarios logrando resultados consistentes con el rendimiento esperado.
Tamaño del Modelo y Consumo de Energía
El modelo de Helios es compacto, conteniendo menos parámetros que muchos sistemas competidores, lo que contribuye a sus bajos requerimientos de energía. La corriente de energía actual durante la operación es de alrededor de 340 mW, lo que lo hace práctico para su uso en dispositivos a batería.
Conclusión
En resumen, el sistema Helios ofrece una poderosa solución para el reconocimiento de gestos en gafas inteligentes, enfatizando bajo consumo de energía e interacciones fáciles para el usuario. La integración de cámaras de eventos avanzadas y algoritmos de aprendizaje automático optimizados permite el reconocimiento en tiempo real de gestos naturales de mano. Los desarrollos futuros podrían expandir el rango de gestos que se pueden reconocer manteniendo un bajo uso de energía, haciendo de Helios un candidato ideal para mejorar la forma en que los usuarios interactúan con sus gafas inteligentes.
Título: Helios: An extremely low power event-based gesture recognition for always-on smart eyewear
Resumen: This paper introduces Helios, the first extremely low-power, real-time, event-based hand gesture recognition system designed for all-day on smart eyewear. As augmented reality (AR) evolves, current smart glasses like the Meta Ray-Bans prioritize visual and wearable comfort at the expense of functionality. Existing human-machine interfaces (HMIs) in these devices, such as capacitive touch and voice controls, present limitations in ergonomics, privacy and power consumption. Helios addresses these challenges by leveraging natural hand interactions for a more intuitive and comfortable user experience. Our system utilizes a extremely low-power and compact 3mmx4mm/20mW event camera to perform natural hand-based gesture recognition for always-on smart eyewear. The camera's output is processed by a convolutional neural network (CNN) running on a NXP Nano UltraLite compute platform, consuming less than 350mW. Helios can recognize seven classes of gestures, including subtle microgestures like swipes and pinches, with 91% accuracy. We also demonstrate real-time performance across 20 users at a remarkably low latency of 60ms. Our user testing results align with the positive feedback we received during our recent successful demo at AWE-USA-2024.
Autores: Prarthana Bhattacharyya, Joshua Mitton, Ryan Page, Owen Morgan, Ben Menzies, Gabriel Homewood, Kemi Jacobs, Paolo Baesso, David Trickett, Chris Mair, Taru Muhonen, Rory Clark, Louis Berridge, Richard Vigars, Iain Wallace
Última actualización: 2024-08-26 00:00:00
Idioma: English
Fuente URL: https://arxiv.org/abs/2407.05206
Fuente PDF: https://arxiv.org/pdf/2407.05206
Licencia: https://creativecommons.org/licenses/by/4.0/
Cambios: Este resumen se ha elaborado con la ayuda de AI y puede contener imprecisiones. Para obtener información precisa, consulte los documentos originales enlazados aquí.
Gracias a arxiv por el uso de su interoperabilidad de acceso abierto.
Enlaces de referencia
- https://www.awexr.com/usa-2024
- https://0e84f9dd10852326-tracking-platform-shared-public-assets.s3.eu-west-1.amazonaws.com/IMG_1720.MOV
- https://www.prophesee.ai/event-based-sensor-genx320/
- https://github.com/prophesee-ai/openeb
- https://docs.prophesee.ai/stable/index.html
- https://www.st.com/en/imaging-and-photonics-solutions/vd55g1.html
- https://www.ovt.com/products/og01a1b/
- https://about.fb.com/news/2023/09/new-ray-ban-meta-smart-glasses/
- https://inivation.com/wp-content/uploads/2019/08/DVS128.pdf
- https://ctan.org/pkg/axessibility?lang=en
- https://www.springer.com/gp/computer-science/lncs