Simple Science

Ciencia de vanguardia explicada de forma sencilla

# Informática# Interacción Persona-Ordenador

Mejorando la Interacción Vocal con Gestos

La investigación revela cómo los gestos con las manos mejoran los sistemas de comando de voz.

― 10 minilectura


Los gestos revolucionanLos gestos revolucionanlos comandos de voz.inteligentes.interacción con los dispositivosLos gestos con las manos mejoran la
Tabla de contenidos

La entrada de voz ya es una forma común en la que la gente interactúa con dispositivos como smartphones, relojes inteligentes y altavoces inteligentes. Sin embargo, controlar cómo y cuándo estos dispositivos responden a los comandos de voz puede ser complicado. A menudo, los usuarios tienen que repetir una palabra o frase de activación para captar la atención del dispositivo, lo que puede ser molesto y hacer que usar el dispositivo no sea tan fluido.

Para facilitar las cosas, los investigadores están buscando maneras de mejorar cómo los usuarios pueden interactuar con sus dispositivos no solo con la voz, sino también con gestos de mano. En este estudio, nos centramos en un tipo específico de gesto llamado gestos de mano a la cara que acompañan la voz (VAHF). Estos gestos pueden ayudar a transmitir significados e intenciones cuando un usuario está hablando, haciendo que las interacciones sean más naturales y efectivas.

La Importancia de los Gestos en la Interacción de Voz

El gesto y la voz son dos formas de comunicación que van de la mano. Así como la gente usa movimientos de las manos mientras habla para expresar emociones o aclarar sus puntos, combinar gestos con comandos de voz puede mejorar la comunicación con los dispositivos. Los gestos VAHF, que implican movimientos de las manos cerca de la cara mientras se habla, tienen ventajas únicas. Pueden cambiar cómo se entienden los comandos de voz e incluso reducir la necesidad de palabras de activación.

Cuando los usuarios realizan gestos VAHF, pueden ayudar a los dispositivos a entender mejor sus intenciones. Por ejemplo, cubrirse la boca puede indicar que el usuario quiere dejar de hablar temporalmente, mientras que señalar puede guiar al dispositivo hacia una acción o respuesta específica. Al usar tanto la voz como los gestos, los usuarios pueden comunicarse de manera más efectiva con sus dispositivos.

Objetivos y Métodos de Investigación

Esta investigación se centró en estudiar cómo se pueden diseñar y reconocer los gestos VAHF para mejorar las interacciones de voz con los dispositivos. Queríamos identificar y desarrollar un conjunto de gestos que sean fáciles de realizar, no confusos para los usuarios y que puedan ser reconocidos de manera confiable por los dispositivos.

Para lograr esto, realizamos una serie de estudios:

  1. Estudio de Elicitación de Gestos: Recopilamos información de los usuarios para entender qué tipo de gestos VAHF propondrían y encontrarían útiles.
  2. Pruebas de Usuario: Analizamos los gestos para determinar cuáles son prácticos y fáciles de usar.
  3. Desarrollo de un Sistema de Reconocimiento: Creamos un método que utiliza varios sensores en diferentes dispositivos para reconocer estos gestos de manera precisa mientras el usuario habla.
  4. Evaluación del Rendimiento: Probamos cuán bien nuestro sistema de reconocimiento podía identificar los gestos y cómo diferentes sensores y dispositivos influían en la precisión del reconocimiento.

Estudio de Elicitación de Gestos

En nuestro primer estudio, reunimos a un grupo de participantes y les pedimos que propusieran tantos gestos VAHF como pudieran. Estos gestos debían ser simples y prácticos para el uso diario. Animamos a los participantes a no limitar sus ideas a tareas específicas, lo que llevó a una amplia gama de gestos propuestos.

Después de recopilar muchas ideas, nos enfocamos en reducirlas a un conjunto más pequeño. Analizamos los gestos en función de lo fáciles que eran de realizar, su aceptación social y cuán probable era que generaran confusión con las actividades diarias. Finalmente, terminamos con un conjunto de ocho gestos que cumplían nuestros criterios.

El Conjunto Final de Gestos

Los ocho gestos en nuestro conjunto final incluyen:

  1. Pinchar el Borde de la Oreja: Un gesto que imita acciones relacionadas con el uso de auriculares o dispositivos de escucha.
  2. Cubrir la Boca con la Palma: Un gesto común que puede señalar la necesidad de pausar o tomar un descanso en la conversación.
  3. Sostener la Mejilla con el Puño: Un gesto pensativo que puede indicar reflexión o meditación.
  4. Cubrir la Oreja con la Palma Arqueada: Un gesto que indica concentración en lo que se dice o escucha.
  5. Gesto de Cara Pensativa: Un gesto que expresa contemplación, señalando la necesidad de un breve momento antes de responder.
  6. Levantar la Palma Junto a la Nariz y la Boca: Un gesto que indica una pausa o transición en el habla.
  7. Cubrir la Boca con el Puño: Este gesto puede transmitir secreto o una solicitud de silencio.
  8. Cubrir la Oreja con la Palma Arqueada: Una señal de atención o una señal para pedir más claridad.

Estos gestos fueron seleccionados porque los participantes los consideraron fáciles de realizar, socialmente aceptables y fáciles de recordar.

Desarrollo de un Sistema de Reconocimiento

Para reconocer efectivamente los gestos VAHF, construimos un sistema que utiliza varios tipos de dispositivos-como auriculares, relojes inteligentes y anillos inteligentes-equipados con diferentes sensores. Cada dispositivo tiene micrófonos y sensores que pueden medir los movimientos y gestos de los usuarios.

Enfoques de Sensado

  1. Características Vocales: Este canal utiliza el sonido de la voz del usuario y analiza cómo los gestos afectan los patrones de voz. Cuando se realiza un gesto, puede cambiar aspectos como el volumen y la frecuencia, lo que ayuda al sistema a identificar el gesto que se está utilizando.

  2. Características Ultrasónicas: Esto implica enviar ondas sonoras de alta frecuencia que rebotan y pueden medirse. Estas ondas ayudan a identificar la posición de la mano del usuario en relación con su cara, añadiendo otra capa de reconocimiento de gestos.

  3. Unidad de Medición Inercial (IMU): Los dispositivos con IMUs rastrean los movimientos de la mano del usuario. Estos datos muestran cómo se mueve la mano al realizar un gesto, proporcionando información valiosa para reconocer gestos de manera precisa.

Combinando Datos

Diseñamos nuestro sistema de reconocimiento para combinar datos de estos diferentes canales. Al fusionar la información de características vocales, características ultrasónicas y datos de IMU, nuestro sistema mejora su capacidad para reconocer gestos con precisión. Esta configuración de múltiples dispositivos no solo proporciona redundancia, sino que también crea datos más ricos para el modelo de reconocimiento.

Evaluación del Sistema de Reconocimiento

Una vez que construimos el sistema de reconocimiento, necesitábamos probar cuán bien funcionaba. Creamos un conjunto de datos que contiene muestras de los gestos junto con varios comandos de voz. Nuestro objetivo era ver cuán precisamente nuestro sistema podía identificar los gestos y las entradas de voz.

Hallazgos Clave

  1. Alta Precisión de Reconocimiento: El sistema logró tasas de precisión impresionantes, con alrededor del 91.5% para reconocer con precisión hasta ocho gestos a la vez. Este éxito demuestra la efectividad de combinar diferentes métodos de sensado.

  2. Impacto de la Combinación de Sensores: Descubrimos que usar una variedad de dispositivos llevó a un mejor rendimiento de reconocimiento. Por ejemplo, usar tanto auriculares como el reloj inteligente mejoró la comprensión de los gestos por parte del sistema. En algunos casos, añadir un dispositivo de anillo mejoró el reconocimiento debido a los datos adicionales de movimiento que proporcionó.

  3. Rendimiento de Gestos: La capacidad de reconocimiento de cada gesto dependía de cuán bien se pudiera distinguir de otros. Algunos gestos eran más fáciles de identificar que otros, así que tomamos estos resultados en cuenta al seleccionar el conjunto final de gestos.

Aplicaciones de los Gestos VAHF

La adición de gestos VAHF abre nuevas posibilidades para cómo interactuamos con los dispositivos. Aquí hay algunas maneras en que se pueden usar estos gestos:

Mejora del Control de Comandos de Voz

  1. Control Dinámico de Modalidad: Los gestos VAHF pueden permitir a los usuarios controlar cómo se procesan sus comandos de voz. Por ejemplo, un usuario podría usar un gesto específico para interrumpir una conversación con un asistente de voz, en lugar de decir una palabra clave una y otra vez.

  2. Interacción sin Palabras de Activación: Con los gestos VAHF, los usuarios podrían evitar tener que repetir una palabra de activación, simplemente indicando que quieren interactuar con el dispositivo a través de sus gestos.

Accesos Directos y Acceso Rápido

  1. Establecer Accesos Directos: Los usuarios pueden asignar gestos a comandos o acciones específicas. Por ejemplo, un usuario podría definir un gesto que envíe un mensaje particular o abra una aplicación específica.

  2. Vínculo Dinámico: Nuestro sistema puede permitir a los usuarios crear y modificar accesos directos en tiempo real. Esto les da a los usuarios la flexibilidad para adaptar su interacción de voz según sus necesidades.

Indicadores Espaciales

En entornos con múltiples dispositivos, los gestos VAHF pueden ayudar a indicar qué dispositivo desea interactuar un usuario. Por ejemplo, señalar a un altavoz inteligente mientras se hace una pregunta asegura que sepa que debe responder a ese pedido específico.

Consideraciones de Diseño

Para que nuestro sistema funcione eficazmente en situaciones del mundo real, necesitamos considerar varios factores:

  1. Limitaciones del Canal: La cantidad de gestos y comandos que un usuario puede realizar debe considerar la probabilidad de confusión. Limitar el número de gestos a la vez puede mejorar el rendimiento general.

  2. Escalabilidad: El sistema debe poder adaptarse para incluir nuevos gestos o dispositivos fácilmente, permitiendo futuras expansiones a medida que la tecnología evoluciona.

  3. Contexto del Usuario: Los dispositivos deben adaptarse según el entorno del usuario. Por ejemplo, en entornos más tranquilos, las características ultrasónicas deberían ser desactivadas para evitar ruidos innecesarios.

  4. Rendimiento Robusto: El sistema necesita funcionar bien en varios entornos, incluyendo aquellos con ruido de fondo. Crear modelos robustos que puedan manejar estos desafíos es vital.

Conclusión

Nuestra investigación sobre los gestos de mano a la cara que acompañan la voz ofrece una nueva forma de interactuar con dispositivos inteligentes. Al combinar gestos con voz, los usuarios pueden participar en una experiencia de interacción más fluida e intuitiva. El conjunto final de gestos que desarrollamos permite una comunicación efectiva y mejora las capacidades de los dispositivos controlados por voz.

El sistema de reconocimiento que construimos mostró resultados prometedores, indicando un camino factible para aplicaciones futuras. Con una mejora continua y la exploración de interacciones basadas en gestos, imaginamos un futuro donde las interacciones de voz puedan volverse más amigables y adaptables, mejorando la experiencia general para los usuarios en situaciones cotidianas.

Este trabajo abre la puerta a más investigaciones sobre sistemas basados en gestos, ampliándose más allá del control por voz y hacia áreas como la realidad aumentada y el Internet de las Cosas. Al mejorar continuamente nuestra comprensión y reconocimiento de estos gestos, podemos crear interacciones más ricas y atractivas en un mundo digital en rápida evolución.

Fuente original

Título: Enabling Voice-Accompanying Hand-to-Face Gesture Recognition with Cross-Device Sensing

Resumen: Gestures performed accompanying the voice are essential for voice interaction to convey complementary semantics for interaction purposes such as wake-up state and input modality. In this paper, we investigated voice-accompanying hand-to-face (VAHF) gestures for voice interaction. We targeted hand-to-face gestures because such gestures relate closely to speech and yield significant acoustic features (e.g., impeding voice propagation). We conducted a user study to explore the design space of VAHF gestures, where we first gathered candidate gestures and then applied a structural analysis to them in different dimensions (e.g., contact position and type), outputting a total of 8 VAHF gestures with good usability and least confusion. To facilitate VAHF gesture recognition, we proposed a novel cross-device sensing method that leverages heterogeneous channels (vocal, ultrasound, and IMU) of data from commodity devices (earbuds, watches, and rings). Our recognition model achieved an accuracy of 97.3% for recognizing 3 gestures and 91.5% for recognizing 8 gestures, excluding the "empty" gesture, proving the high applicability. Quantitative analysis also sheds light on the recognition capability of each sensor channel and their different combinations. In the end, we illustrated the feasible use cases and their design principles to demonstrate the applicability of our system in various scenarios.

Autores: Zisu Li, Cheng Liang, Yuntao Wang, Yue Qin, Chun Yu, Yukang Yan, Mingming Fan, Yuanchun Shi

Última actualización: 2023-03-18 00:00:00

Idioma: English

Fuente URL: https://arxiv.org/abs/2303.10441

Fuente PDF: https://arxiv.org/pdf/2303.10441

Licencia: https://creativecommons.org/licenses/by-nc-sa/4.0/

Cambios: Este resumen se ha elaborado con la ayuda de AI y puede contener imprecisiones. Para obtener información precisa, consulte los documentos originales enlazados aquí.

Gracias a arxiv por el uso de su interoperabilidad de acceso abierto.

Más de autores

Artículos similares