Simple Science

Ciência de ponta explicada de forma simples

# Informática# Interação Homem-Computador# Inteligência Artificial# Robótica

Avaliando Vozes de Texto para Fala para Mindfulness

Estudo avalia a qualidade e personalização das vozes TTS em práticas de mindfulness.

― 6 min ler


Atenção plena e qualidadeAtenção plena e qualidadeda voz TTSem práticas de mindfulness.Estudo destaca as limitações da voz TTS
Índice

A mindfulness é um método que ajuda as pessoas a melhorarem a saúde mental, focando em estar presente e ciente. Vários estudos mostram que a mindfulness pode reduzir estresse, ansiedade e depressão. Mas, pra algumas pessoas, participar de sessões de mindfulness presenciais pode ser complicado por causa do custo e da disponibilidade. Pra tornar a mindfulness mais acessível, estão sendo exploradas opções baseadas em tecnologia, como aplicativos móveis e robôs. Essas tecnologias costumam usar scripts pré-gravados, o que limita o suporte em tempo real. É aí que entra a tecnologia de Texto-para-fala (TTS). O TTS pode criar orientações faladas personalizadas e imediatas pra prática de mindfulness. No entanto, há uma preocupação com a qualidade dessas vozes TTS, especialmente em relação à capacidade delas de transmitir emoções de forma eficaz.

A Necessidade de Vozes TTS de Qualidade

Pra práticas de mindfulness serem eficazes, é crucial que as vozes usadas pra guiar os usuários sejam de alta qualidade. Atualmente, as vozes TTS são avaliadas principalmente com base em quão claras e fáceis de entender elas são. Avanços recentes tornaram as vozes TTS mais eficazes pra leitura. No entanto, ainda é necessário avaliar o quão bem essas vozes se saem em contextos como a mindfulness, que requerem engajamento emocional.

Objetivos do Estudo

O principal objetivo deste estudo foi avaliar a qualidade percebida pelos usuários de diferentes vozes TTS quando usadas pra meditação mindfulness. Mais especificamente, buscou descobrir como diferentes tipos de vozes foram avaliadas pelos usuários em várias situações: sem agente, com um agente conversacional ou um robô assistivo social. Além disso, o estudo teve como objetivo investigar se personalizar as vozes TTS poderia melhorar a satisfação dos usuários.

Métodos

Design do Estudo

O estudo foi dividido em duas fases: uma pesquisa online e um estudo presencial. Na primeira fase, a pesquisa online utilizou o Amazon Mechanical Turk pra avaliar a qualidade de diferentes vozes TTS em comparação com vozes humanas. Os participantes foram aleatoriamente designados pra ouvir práticas de mindfulness guiadas usando várias opções de voz. Na segunda fase, os participantes em um ambiente de laboratório ouviram vozes selecionadas e tiveram a chance de personalizar características da voz TTS.

Fase 1: Pesquisa Online

Na Fase 1, um total de 471 participantes esteve envolvido. Eles ouviram uma prática de mindfulness de dois minutos que foi apresentada usando diferentes tipos de voz. Essas vozes incluíam vozes TTS femininas, masculinas e infantis, além de vozes de terapeutas humanos. Os participantes avaliaram as vozes com base em clareza, expressividade emocional e qualidade geral.

Fase 2: Estudo Presencial

Na Fase 2, 94 estudantes universitários participaram em um ambiente presencial. Eles ouviram a mesma prática de mindfulness e avaliaram três opções de voz: a melhor voz humana avaliada, a melhor voz TTS avaliada, e uma voz TTS personalizada pelo usuário. Os participantes puderam ajustar características da voz TTS, como gênero, sotaque, tom e velocidade. Essa fase teve como objetivo avaliar como a personalização afetou as avaliações dos usuários.

Resultados

Avaliação da Qualidade da Voz

Nas avaliações, foi constatado que a voz do terapeuta humano consistentemente recebeu notas mais altas do que todas as vozes TTS em diferentes condições. Os participantes estavam particularmente atentos à expressividade emocional, notando que as vozes TTS muitas vezes pareciam menos naturais do que as vozes humanas. Embora a clareza tenha sido avaliada positivamente, a expressividade emocional foi geralmente avaliada de forma negativa.

Efeitos da Corporeidade Física

O estudo também explorou o impacto da corporeidade física nas avaliações das vozes. Os resultados indicaram que, para uma voz TTS, a corporeidade de um robô assistivo social contribuiu pra notas mais baixas dos usuários. Isso sugere que, se uma voz não se alinha bem com a presença física de um agente, ela pode, na verdade, piorar a experiência. Muitos participantes descreveram as vozes TTS como soando "robóticas" e "sem emoção", o que afetou a experiência de mindfulness deles.

Benefícios da Personalização

Surpreendentemente, as vozes TTS personalizadas pelos usuários foram avaliadas significativamente mais altas do que as vozes TTS não personalizadas em todas as condições. Em algumas situações, as vozes personalizadas pelos usuários tiveram desempenho equiparável às melhores vozes humanas avaliadas. Isso destaca o potencial de permitir que os usuários ajustem as características da voz pra melhorar significativamente a experiência deles.

Discussão

Os resultados do estudo enfatizam a importância da expressividade emocional nas vozes TTS, particularmente em aplicações como a meditação mindfulness. Embora muitas vozes TTS tenham ficado mais claras e fáceis de entender, elas ainda ficam atrás das vozes humanas na hora de transmitir emoção. A personalização parece ser uma estratégia promissora pra melhorar a experiência do usuário com a tecnologia TTS, permitindo ajustes que atendam às preferências individuais.

Implicações para a Tecnologia de Mindfulness

Os achados sugerem que a tecnologia TTS precisa de mais melhorias pra oferecer orientações de mindfulness de forma eficaz. Os desenvolvedores devem se concentrar em aumentar a expressividade emocional nas vozes TTS e considerar seriamente as preferências dos usuários. Experiências personalizadas poderiam levar a uma maior satisfação e adesão às práticas de mindfulness.

Limitações

Existem limitações nesta pesquisa. A fase online ocorreu durante a pandemia e não foi realizada presencialmente, o que pode afetar os resultados. Além disso, a amostra era principalmente dos EUA, o que pode não representar um público mais amplo.

Direções Futuras

Pesquisas futuras deveriam explorar outros tipos de agentes além dos usados neste estudo pra determinar se achados semelhantes se mantêm. Também seria benéfico investigar como diferenças culturais afetam as preferências dos usuários em relação às características das vozes nas práticas de mindfulness.

Conclusão

Este estudo trouxe à tona a qualidade das vozes TTS nas práticas de mindfulness e destacou a significativa diferença entre as vozes TTS e as humanas na expressividade emocional. É importante notar que a personalização desempenha um papel fundamental na melhoria da experiência do usuário. À medida que a tecnologia evolui, há uma necessidade maior de vozes TTS que não só informem, mas também envolvam os usuários emocionalmente, especialmente em aplicações relacionadas à saúde, como a meditação mindfulness.

Fonte original

Título: Evaluating and Personalizing User-Perceived Quality of Text-to-Speech Voices for Delivering Mindfulness Meditation with Different Physical Embodiments

Resumo: Mindfulness-based therapies have been shown to be effective in improving mental health, and technology-based methods have the potential to expand the accessibility of these therapies. To enable real-time personalized content generation for mindfulness practice in these methods, high-quality computer-synthesized text-to-speech (TTS) voices are needed to provide verbal guidance and respond to user performance and preferences. However, the user-perceived quality of state-of-the-art TTS voices has not yet been evaluated for administering mindfulness meditation, which requires emotional expressiveness. In addition, work has not yet been done to study the effect of physical embodiment and personalization on the user-perceived quality of TTS voices for mindfulness. To that end, we designed a two-phase human subject study. In Phase 1, an online Mechanical Turk between-subject study (N=471) evaluated 3 (feminine, masculine, child-like) state-of-the-art TTS voices with 2 (feminine, masculine) human therapists' voices in 3 different physical embodiment settings (no agent, conversational agent, socially assistive robot) with remote participants. Building on findings from Phase 1, in Phase 2, an in-person within-subject study (N=94), we used a novel framework we developed for personalizing TTS voices based on user preferences, and evaluated user-perceived quality compared to best-rated non-personalized voices from Phase 1. We found that the best-rated human voice was perceived better than all TTS voices; the emotional expressiveness and naturalness of TTS voices were poorly rated, while users were satisfied with the clarity of TTS voices. Surprisingly, by allowing users to fine-tune TTS voice features, the user-personalized TTS voices could perform almost as well as human voices, suggesting user personalization could be a simple and very effective tool to improve user-perceived quality of TTS voice.

Autores: Zhonghao Shi, Han Chen, Anna-Maria Velentza, Siqi Liu, Nathaniel Dennler, Allison O'Connell, Maja Matarić

Última atualização: 2024-01-07 00:00:00

Idioma: English

Fonte URL: https://arxiv.org/abs/2401.03581

Fonte PDF: https://arxiv.org/pdf/2401.03581

Licença: https://creativecommons.org/licenses/by-nc-sa/4.0/

Alterações: Este resumo foi elaborado com a assistência da AI e pode conter imprecisões. Para obter informações exactas, consulte os documentos originais ligados aqui.

Obrigado ao arxiv pela utilização da sua interoperabilidade de acesso aberto.

Mais de autores

Artigos semelhantes