Simple Science

Ciência de ponta explicada de forma simples

# Informática# Interação Homem-Computador

Melhorando a Interação por Voz com Gestos

Pesquisas mostram como gestos com as mãos melhoram os sistemas de comando de voz.

― 10 min ler


Gestos RevolucionamGestos RevolucionamComandos de Vozdispositivos inteligentes.Gestos de mão melhoram a interação com
Índice

A entrada de voz agora é uma forma comum de as pessoas interagirem com dispositivos como smartphones, smartwatches e alto-falantes inteligentes. Mas controlar como e quando esses dispositivos respondem aos comandos de voz pode ser meio complicado. Muitas vezes, os usuários precisam repetir uma palavra ou frase de ativação para chamar a atenção do dispositivo, o que pode ser irritante e tornar o uso do aparelho menos fluido.

Pra facilitar as coisas, os pesquisadores estão buscando maneiras de melhorar como os usuários interagem com seus dispositivos, usando não apenas a voz, mas também gestos das mãos. Neste estudo, focamos em um tipo específico de gesto chamado gestos de mão para o rosto acompanhados de voz (VAHF). Esses gestos ajudam a transmitir significados e intenções quando um usuário está falando, tornando as interações mais naturais e eficazes.

A Importância dos Gestos na Interação por Voz

Gestos e voz são formas de comunicação que naturalmente andam juntas. Assim como as pessoas usam movimentos das mãos enquanto falam pra expressar emoções ou esclarecer pontos, combinar gestos com comandos de voz pode melhorar a comunicação com os dispositivos. Os gestos VAHF, que envolvem movimentos das mãos perto do rosto enquanto falam, têm vantagens únicas. Eles podem alterar a forma como os comandos de voz são entendidos e até reduzir a necessidade de palavras de ativação.

Quando os usuários realizam gestos VAHF, isso ajuda os dispositivos a entenderem melhor suas intenções. Por exemplo, cobrir a boca pode sinalizar que o usuário quer parar de falar temporariamente, enquanto apontar pode direcionar o dispositivo para uma ação ou resposta específica. Usando tanto a voz quanto gestos, os usuários conseguem se comunicar de forma mais eficaz com seus dispositivos.

Metas e Métodos da Pesquisa

Esse estudo teve como objetivo investigar como os gestos VAHF podem ser projetados e reconhecidos pra melhorar as interações por voz com os dispositivos. Queríamos identificar e desenvolver um conjunto de gestos que fossem fáceis de realizar, não confusos para os usuários e que pudessem ser reconhecidos com confiabilidade pelos dispositivos.

Pra conseguir isso, realizamos uma série de estudos:

  1. Estudo de Elicitação de Gestos: Coletamos opiniões dos usuários pra entender que tipo de gestos VAHF eles propuseram e acharam úteis.
  2. Teste com Usuários: Analisamos os gestos pra determinar quais eram práticos e fáceis de usar.
  3. Desenvolvimento de um Sistema de Reconhecimento: Criamos um método que usa vários sensores em diferentes dispositivos pra reconhecer esses gestos com precisão enquanto o usuário fala.
  4. Avaliação de Desempenho: Testamos quão bem nosso sistema de reconhecimento poderia identificar os gestos e como diferentes sensores e dispositivos influenciavam a precisão do reconhecimento.

Estudo de Elicitação de Gestos

No nosso primeiro estudo, juntamos um grupo de participantes e pedimos que pensassem em quantos gestos VAHF conseguissem imaginar. Esses gestos precisavam ser simples e práticos para o uso diário. Incentivamos os participantes a não limitarem suas ideias a tarefas específicas, levando a um amplo leque de gestos propostos.

Depois de coletar várias ideias, focamos em reduzir o número pra um conjunto menor. Analisamos os gestos com base em quão fáceis eram de realizar, sua aceitação social e quão propensos poderiam a gerar confusão nas atividades do dia a dia. No final, conseguimos um conjunto de oito gestos que atendiam aos nossos critérios.

O Conjunto Final de Gestos

Os oito gestos do nosso conjunto final incluem:

  1. Beliscar a Borda da Orelha: Um gesto que imita ações relacionadas ao uso de fones de ouvido ou dispositivos de escuta.
  2. Cobrir a Boca com a Palma: Um gesto comum que pode sinalizar a necessidade de pausar ou fazer uma pausa na conversa.
  3. Apoiar a Bochecha com o Punho: Um gesto pensativo que pode indicar reflexão.
  4. Cobrir a Orelha com a Palma Arqueada: Um gesto que indica concentração no que está sendo dito ou escutando.
  5. Gesto de Rosto Pensativo: Um gesto que expressa contemplação, sinalizando a necessidade de um breve momento antes de responder.
  6. Levantar a Palma ao Lado do Nariz e da Boca: Um gesto que indica uma pausa ou transição na fala.
  7. Cobrir a Boca com o Punho: Este gesto pode transmitir segredo ou um pedido de silêncio.
  8. Cobrir a Orelha com a Palma Arqueada: Um sinal de atenção ou um sinal pra pedir mais clareza.

Esses gestos foram selecionados porque os participantes acharam eles fáceis de realizar, socialmente aceitáveis e fáceis de lembrar.

Desenvolvimento de um Sistema de Reconhecimento

Pra reconhecer efetivamente os gestos VAHF, construímos um sistema que usa vários tipos de dispositivos-como fones de ouvido, smartwatches e anéis inteligentes-equipados com diferentes sensores. Cada dispositivo tem microfones e sensores que podem medir os movimentos e gestos dos usuários.

Abordagens de Sensoriamento

  1. Características Vocais: Este canal utiliza o som da voz do usuário e analisa como os gestos afetam os padrões de voz. Quando um gesto é realizado, ele pode mudar aspectos como volume e frequência, ajudando o sistema a identificar qual gesto está sendo usado.

  2. Características Ultrassônicas: Isso envolve o envio de ondas sonoras de alta frequência que refletem e podem ser medidas. Essas ondas ajudam a identificar a posição da mão do usuário em relação ao rosto, adicionando uma camada extra de reconhecimento de gestos.

  3. Unidade de Medição Inercial (IMU): Dispositivos com IMUs rastreiam os movimentos da mão do usuário. Esses dados mostram como a mão se move enquanto realiza um gesto, fornecendo informações valiosas pra reconhecer gestos com precisão.

Combinando Dados

Projetamos nosso sistema de reconhecimento pra combinar dados desses diferentes canais. Ao mesclar as informações das características vocais, características ultrassônicas e dados da IMU, nosso sistema melhora sua capacidade de reconhecer gestos com precisão. Essa configuração multi-dispositivo não só fornece redundância, mas também cria dados mais ricos pro modelo de reconhecimento.

Avaliação do Sistema de Reconhecimento

Depois de construir o sistema de reconhecimento, precisávamos testar quão bem ele funcionava. Criamos um conjunto de dados contendo amostras dos gestos junto com vários comandos de voz. Nossa meta era ver quão precisamente nosso sistema podia identificar os gestos e as entradas de voz.

Principais Descobertas

  1. Alta Precisão de Reconhecimento: O sistema alcançou taxas de precisão impressionantes, com cerca de 91,5% de precisão na identificação de até oito gestos de uma vez. Esse sucesso demonstra a eficácia de combinar diferentes métodos de sensoriamento.

  2. Impacto da Combinação de Sensores: Descobrimos que usar uma variedade de dispositivos resultou em um melhor desempenho de reconhecimento. Por exemplo, usar tanto os fones de ouvido quanto o smartwatch melhorou a compreensão do sistema sobre os gestos. Em alguns casos, adicionar um dispositivo de anel melhorou o reconhecimento devido aos dados de movimento adicionais que ele forneceu.

  3. Desempenho dos Gestos: O reconhecimento de cada gesto dependia de quão bem ele poderia ser distinguido dos outros. Alguns gestos eram mais fáceis de identificar do que outros, e levamos esses resultados em consideração ao selecionar o conjunto final de gestos.

Aplicações dos Gestos VAHF

A adição dos gestos VAHF abre novas possibilidades de como interagimos com os dispositivos. Aqui estão algumas maneiras que esses gestos podem ser usados:

Controle Melhorado dos Comandos de Voz

  1. Controle Dinâmico de Modalidade: Os gestos VAHF podem permitir que os usuários controlem como seus comandos de voz são processados. Por exemplo, um usuário poderia usar um gesto específico pra interromper uma conversa com um assistente de voz, em vez de dizer uma palavra-chave repetidamente.

  2. Interação Sem Palavra de Ativação: Com os gestos VAHF, os usuários poderiam evitar ter que repetir uma palavra de ativação, simplesmente indicando que querem interagir com o dispositivo através de gestos.

Atalhos e Acesso Rápido

  1. Definindo Atalhos: Os usuários podem atribuir gestos a comandos ou ações específicos. Por exemplo, um usuário poderia definir um gesto que envia uma mensagem específica ou abre um aplicativo específico.

  2. Vinculação Dinâmica: Nosso sistema pode permitir que os usuários criem e modifiquem atalhos em tempo real. Isso dá flexibilidade pros usuários adaptarem sua interação por voz conforme suas necessidades.

Indicadores Espaciais

Em ambientes com vários dispositivos, os gestos VAHF podem ajudar a indicar qual dispositivo o usuário deseja interagir. Por exemplo, apontar pra um alto-falante inteligente enquanto faz uma pergunta garante que ele saiba que deve responder àquela solicitação específica.

Considerações de Design

Pra que nosso sistema funcione efetivamente em cenários do mundo real, precisamos considerar vários fatores:

  1. Limitações do Canal: O número de gestos e comandos que um usuário pode realizar deve considerar a probabilidade de confusão. Limitar o número de gestos ao mesmo tempo pode melhorar o desempenho geral.

  2. Escalabilidade: O sistema deve ser capaz de se adaptar pra incluir novos gestos ou dispositivos facilmente, permitindo expansões futuras conforme a tecnologia evolui.

  3. Contexto do Usuário: Os dispositivos devem se adaptar com base no que está ao redor do usuário. Por exemplo, em ambientes mais silenciosos, os recursos ultrassônicos devem ser desativados pra evitar ruídos desnecessários.

  4. Desempenho Robusto: O sistema precisa funcionar bem em diferentes ambientes, incluindo aqueles com ruídos de fundo. Criar modelos robustos que possam lidar com esses desafios é crucial.

Conclusão

Nossa investigação sobre gestos acompanhados de voz e mão para o rosto oferece uma nova maneira de interagir com dispositivos inteligentes. Ao combinar gestos com a voz, os usuários podem ter uma experiência de interação mais fluida e intuitiva. O conjunto final de gestos que desenvolvemos permite uma comunicação eficaz e aprimora as capacidades dos dispositivos controlados por voz.

O sistema de reconhecimento que construímos mostrou resultados promissores, indicando um caminho viável para futuras aplicações. Com melhorias contínuas e a exploração de interações baseadas em gestos, imaginamos um futuro onde as interações por voz se tornem mais amigáveis e adaptáveis, melhorando a experiência geral dos usuários em situações do dia a dia.

Esse trabalho abre as portas pra mais pesquisas sobre sistemas baseados em gestos, expandindo além do controle por voz e indo pra áreas como realidade aumentada e Internet das Coisas. Ao continuarmos a aprimorar nossa compreensão e reconhecimento desses gestos, podemos criar interações mais ricas e envolventes em um mundo digital em rápida evolução.

Fonte original

Título: Enabling Voice-Accompanying Hand-to-Face Gesture Recognition with Cross-Device Sensing

Resumo: Gestures performed accompanying the voice are essential for voice interaction to convey complementary semantics for interaction purposes such as wake-up state and input modality. In this paper, we investigated voice-accompanying hand-to-face (VAHF) gestures for voice interaction. We targeted hand-to-face gestures because such gestures relate closely to speech and yield significant acoustic features (e.g., impeding voice propagation). We conducted a user study to explore the design space of VAHF gestures, where we first gathered candidate gestures and then applied a structural analysis to them in different dimensions (e.g., contact position and type), outputting a total of 8 VAHF gestures with good usability and least confusion. To facilitate VAHF gesture recognition, we proposed a novel cross-device sensing method that leverages heterogeneous channels (vocal, ultrasound, and IMU) of data from commodity devices (earbuds, watches, and rings). Our recognition model achieved an accuracy of 97.3% for recognizing 3 gestures and 91.5% for recognizing 8 gestures, excluding the "empty" gesture, proving the high applicability. Quantitative analysis also sheds light on the recognition capability of each sensor channel and their different combinations. In the end, we illustrated the feasible use cases and their design principles to demonstrate the applicability of our system in various scenarios.

Autores: Zisu Li, Cheng Liang, Yuntao Wang, Yue Qin, Chun Yu, Yukang Yan, Mingming Fan, Yuanchun Shi

Última atualização: 2023-03-18 00:00:00

Idioma: English

Fonte URL: https://arxiv.org/abs/2303.10441

Fonte PDF: https://arxiv.org/pdf/2303.10441

Licença: https://creativecommons.org/licenses/by-nc-sa/4.0/

Alterações: Este resumo foi elaborado com a assistência da AI e pode conter imprecisões. Para obter informações exactas, consulte os documentos originais ligados aqui.

Obrigado ao arxiv pela utilização da sua interoperabilidade de acesso aberto.

Mais de autores

Artigos semelhantes