GazePointAR: Una nueva forma de interactuar con la tecnología
GazePointAR mejora la experiencia del usuario con gafas de AR usando la mirada y gestos.
― 7 minilectura
Tabla de contenidos
Los asistentes de voz como Siri y Alexa han cambiado la forma en que interactuamos con la tecnología. Sin embargo, a menudo tienen problemas para entender dónde estás y qué estás mirando. Esto puede llevar a conversaciones incómodas y preguntas sin respuesta. Ahí es donde entra GazePointAR. Es un asistente de voz diseñado para gafas de realidad aumentada (AR) que entiende tu entorno mediante tu mirada y gestos. Con GazePointAR, puedes hacer preguntas como "¿Qué hay allá?" o "¿Cómo resuelvo este problema de matemáticas?" y obtener respuestas basadas en lo que estás mirando o señalando.
¿Qué es GazePointAR?
GazePointAR es un asistente de voz avanzado que utiliza seguimiento ocular y gestos para ayudarte a hacer preguntas de manera más natural. Cuando haces una pregunta que incluye un pronombre como "esto" o "eso", GazePointAR averigua a qué te refieres mirando hacia donde estás mirando. Combina esta información con lo que has hablado antes para darte la respuesta correcta.
Por ejemplo, si preguntas "¿Qué es esto?" mientras miras una botella de jugo, GazePointAR reconoce la botella de jugo que estás mirando y te proporciona información sobre ella.
Estudio de Usuario
Para ver qué tan bien funciona GazePointAR, hicimos un estudio en un laboratorio con doce participantes. Queríamos saber cómo se sentían los usuarios sobre GazePointAR en comparación con otros dos asistentes de voz: Google Voice Assistant y Google Lens. También queríamos ver cómo las personas usaban GazePointAR en diferentes situaciones.
Parte 1: Comparando Asistentes de Voz
En la primera parte del estudio, se pidió a los participantes que completaran tareas comunes usando cada asistente de voz. Por ejemplo, trataron de encontrar una receta que involucrara un tipo específico de salsa. Se animó a los participantes a hacer preguntas de maneras que tuvieran sentido para cada sistema. También llenaron un cuestionario después de usar cada asistente, calificando qué tan fácil era de usar y cuán útil lo encontraron.
Resultados:
Impresiones Generales: Los participantes prefirieron usar Google Voice Assistant y GazePointAR sobre Google Lens. Muchos sintieron que Google Lens requería demasiados pasos adicionales, como escribir después de tomar una foto, lo que lo hacía sentir poco natural.
Eficiencia: Los participantes encontraron que GazePointAR era rápido y fácil de usar, especialmente porque podían hacer preguntas mientras miraban el objeto al que se referían. Sin embargo, notaron que GazePointAR solo proporcionaba una respuesta en lugar de múltiples opciones como Google Assistant.
Naturalidad: Muchos participantes sintieron que hablar con GazePointAR era más como tener una conversación con una persona que usar una máquina. Apreciaron poder usar Pronombres, ya que esto se sentía más natural que tener que especificar exactamente a qué se referían.
Parte 2: Consultas Sensibles al Contexto
En la segunda parte del estudio, los participantes completaron tareas que requerían que GazePointAR usara el contexto a su alrededor. Por ejemplo, se les pidió que confirmaran si una ecuación de matemáticas era correcta mirándola y preguntándole a GazePointAR.
Resultados:
Uso de Pronombres: Casi todos los participantes usaron pronombres como "esto" o "estos" al hacer preguntas, lo que hizo que la interacción se sintiera más intuitiva.
Limitaciones: Los participantes señalaron que GazePointAR tenía problemas con consultas que involucraban múltiples pronombres. Por ejemplo, querían comparar dos elementos, pero les resultó difícil formular sus preguntas de manera natural.
Deseo de Transparencia: Los usuarios expresaron su deseo de entender mejor cómo GazePointAR interpretaba sus consultas y el contexto. Querían saber qué "veía" GazePointAR cuando hacían preguntas.
Uso Real de GazePointAR
Después del estudio de laboratorio, queríamos ver qué tan bien se desempeñaba GazePointAR en situaciones cotidianas. Para hacer esto, el investigador principal usó GazePointAR durante cinco días en varios lugares como cafés, tiendas y parques, mientras llevaba un diario de sus experiencias.
Hallazgos:
Interacción Natural: El investigador principal sintió que usar GazePointAR era como tener a un amigo ayudándoles. Apreciaron cómo facilitaba responder preguntas sobre objetos desconocidos.
Mirada y Gestos: El investigador principalmente usó la mirada para interactuar en lugar de señalar, sintiendo que era más fácil y discreto en entornos públicos.
Autoconciencia: Hubo momentos en los que el investigador se sintió incómodo hablando en voz alta mientras llevaba el auricular, especialmente en lugares más silenciosos como bibliotecas u hospitales.
Variedad de Consultas: Durante los cinco días, el investigador hizo 48 preguntas, recibiendo respuestas satisfactorias para 20 de ellas. Descubrieron que GazePointAR podía manejar preguntas sobre calificaciones de productos, recomendaciones de restaurantes y mucho más.
Desafíos: Algunas preguntas quedaron sin respuesta porque GazePointAR no pudo reconocer ciertos objetos o requería un historial de mirada. Por ejemplo, tuvo problemas con preguntas sobre objetos que no estaban en su modelo de Reconocimiento de objetos.
¿Qué hace especial a GazePointAR?
GazePointAR combina múltiples tecnologías para proporcionar una experiencia de interacción más rica. Aquí está lo que lo distingue:
Consciencia del Contexto: Entiende dónde estás y qué estás mirando, lo que facilita hacer preguntas de manera natural.
Entrada Multimodal: Al usar la mirada, gestos y voz, GazePointAR te permite interactuar de manera más fluida sin tener que depender solo de un método.
Enfoque en Pronombres: El uso de pronombres lo hace más fácil de usar, permitiendo expresiones más simples de consultas complejas.
Limitaciones y Áreas de Mejora
Seguimiento de la Mirada: Actualmente, GazePointAR solo rastrea dónde estás mirando en el momento en que haces una pregunta. Las versiones futuras podrían beneficiarse de rastrear continuamente la mirada para proporcionar un mejor contexto.
Reconocimiento de Objetos: GazePointAR necesita mejorar su comprensión de diferentes objetos. Esto es esencial para responder con precisión a las consultas de los usuarios sobre artículos específicos.
Elección del Usuario: Los usuarios expresaron su deseo de tener más control sobre las respuestas que recibían. Idealmente, les gustaría opciones para explorar respuestas más como un motor de búsqueda tradicional.
Explicabilidad: Los usuarios quieren entender cómo GazePointAR llegó a sus conclusiones. Mejorar la transparencia en este proceso aumentará la confianza y usabilidad del usuario.
Soporte para Múltiples Pronombres: Si bien GazePointAR funciona bien con pronombres individuales, tiene dificultades con consultas que involucran múltiples puntos de referencia. Mejorar esta capacidad es crucial para preguntas más complejas.
Direcciones Futuras
Para mejorar GazePointAR, se pueden considerar los siguientes pasos:
Rastreo Continuo de la Mirada: Implementar sistemas para ayudar a capturar dónde están mirando los usuarios a lo largo del tiempo hará que las interacciones sean más naturales y permitirá una mejor comprensión del contexto.
Modelos de ML Mejorados: Actualizar los modelos de aprendizaje automático utilizados para el reconocimiento de objetos permitirá que GazePointAR comprenda más objetos y proporcione respuestas más precisas.
Interfaz de Usuario Mejorada: Proporcionar una interfaz más interactiva donde los usuarios puedan explorar múltiples respuestas aumentará la satisfacción del usuario.
Mayor Acceso a Datos: Permitir que GazePointAR acceda a más datos, como elementos de calendario o calificaciones en línea, podría mejorar su utilidad.
Estudios Más Robustos: La investigación futura debe incluir pruebas de usuarios más diversas para examinar cómo diferentes personas utilizan GazePointAR en diversas situaciones del mundo real.
Conclusión
GazePointAR representa un avance significativo en el mundo de los asistentes de voz. Al incorporar la mirada, gestos y contexto en las interacciones, permite una experiencia más natural e intuitiva. Aunque todavía enfrenta desafíos, GazePointAR muestra un gran potencial para el futuro de la realidad aumentada y cómo interactuamos con la tecnología en nuestra vida diaria.
Al abordar sus limitaciones actuales, GazePointAR podría convertirse en una herramienta esencial para cualquiera que busque interactuar con el mundo que los rodea de manera más fluida.
Título: GazePointAR: A Context-Aware Multimodal Voice Assistant for Pronoun Disambiguation in Wearable Augmented Reality
Resumen: Voice assistants (VAs) like Siri and Alexa are transforming human-computer interaction; however, they lack awareness of users' spatiotemporal context, resulting in limited performance and unnatural dialogue. We introduce GazePointAR, a fully-functional context-aware VA for wearable augmented reality that leverages eye gaze, pointing gestures, and conversation history to disambiguate speech queries. With GazePointAR, users can ask "what's over there?" or "how do I solve this math problem?" simply by looking and/or pointing. We evaluated GazePointAR in a three-part lab study (N=12): (1) comparing GazePointAR to two commercial systems; (2) examining GazePointAR's pronoun disambiguation across three tasks; (3) and an open-ended phase where participants could suggest and try their own context-sensitive queries. Participants appreciated the naturalness and human-like nature of pronoun-driven queries, although sometimes pronoun use was counter-intuitive. We then iterated on GazePointAR and conducted a first-person diary study examining how GazePointAR performs in-the-wild. We conclude by enumerating limitations and design considerations for future context-aware VAs.
Autores: Jaewook Lee, Jun Wang, Elizabeth Brown, Liam Chu, Sebastian S. Rodriguez, Jon E. Froehlich
Última actualización: 2024-04-11 00:00:00
Idioma: English
Fuente URL: https://arxiv.org/abs/2404.08213
Fuente PDF: https://arxiv.org/pdf/2404.08213
Licencia: https://creativecommons.org/licenses/by/4.0/
Cambios: Este resumen se ha elaborado con la ayuda de AI y puede contener imprecisiones. Para obtener información precisa, consulte los documentos originales enlazados aquí.
Gracias a arxiv por el uso de su interoperabilidad de acceso abierto.
Enlaces de referencia
- https://github.com/tiangolo/fastapi
- https://www.docker.com
- https://github.com/localtunnel/localtunnel
- https://unity.com
- https://learn.microsoft.com/en-us/windows/mixed-reality/mrtk-unity/mrtk2
- https://www.acm.org/publications/taps/whitelist-of-latex-packages
- https://dl.acm.org/ccs.cfm
- https://www.acm.org/publications/proceedings-template
- https://capitalizemytitle.com/
- https://www.acm.org/publications/class-2012
- https://dl.acm.org/ccs/ccs.cfm
- https://ctan.org/pkg/booktabs
- https://goo.gl/VLCRBB
- https://www.acm.org/publications/taps/describing-figures/