Simple Science

Ciencia de vanguardia explicada de forma sencilla

# Informática# Interacción Persona-Ordenador# Inteligencia artificial# Robótica

Evaluando Voces de Texto a Voz para la Atención Plena

El estudio evalúa la calidad y personalización de las voces TTS en prácticas de mindfulness.

― 7 minilectura


Mindfulness y calidad deMindfulness y calidad devoz TTSmindfulness.la voz TTS en las prácticas deEl estudio destaca las limitaciones de
Tabla de contenidos

La Atención plena es un método que ayuda a las personas a mejorar su salud mental al centrarse en estar presente y consciente. Muchos estudios muestran que la atención plena puede reducir el estrés, la ansiedad y la depresión. Sin embargo, asistir a sesiones de atención plena en persona puede ser complicado para algunos por el costo y la disponibilidad. Para hacer que la atención plena sea más accesible, se están explorando opciones basadas en tecnología como aplicaciones móviles y robots. Estas tecnologías suelen usar guiones pregrabados, lo que limita el apoyo en tiempo real. Ahí es donde entra la tecnología de Texto a voz (TTS). TTS puede crear una guía hablada personalizada e inmediata para la práctica de la atención plena. No obstante, hay preocupación sobre la calidad de estas voces TTS, especialmente en cuanto a su capacidad para transmitir emociones de manera efectiva.

La necesidad de voces TTS de calidad

Para que las prácticas de atención plena sean efectivas, es crucial que las voces utilizadas para guiar a los usuarios sean de alta calidad. Actualmente, las voces TTS se evalúan principalmente en función de qué tan claras son y qué tan fáciles de entender. Los avances recientes han hecho que las voces TTS sean más efectivas para leer. Sin embargo, aún hay necesidad de evaluar qué tan bien estas voces funcionan en contextos como la atención plena, que requieren compromiso emocional.

Objetivos del estudio

El objetivo principal de este estudio fue evaluar la calidad percibida por los usuarios de diferentes voces TTS cuando se utilizan para la meditación de atención plena. Más específicamente, se buscó averiguar cómo los usuarios calificaban diferentes tipos de voces en varias situaciones: sin agente, con un agente conversacional, o con un robot de asistencia social. Además, el estudio tuvo como objetivo investigar si personalizar las voces TTS podría mejorar la satisfacción del usuario.

Métodos

Diseño del estudio

El estudio se dividió en dos fases: una encuesta en línea y un estudio en persona. En la primera fase, la encuesta en línea utilizó Amazon Mechanical Turk para evaluar la calidad de diferentes voces TTS en comparación con voces humanas. A los participantes se les asignó aleatoriamente escuchar prácticas guiadas de atención plena usando varias opciones de voz. En la segunda fase, los participantes en un entorno de laboratorio escucharon voces seleccionadas y tuvieron la oportunidad de personalizar las características de la voz TTS.

Fase 1: Encuesta en línea

En la Fase 1, participaron un total de 471 personas. Escucharon una práctica de atención plena de dos minutos que se entregó usando diferentes tipos de voces. Estas voces incluían voces TTS femeninas, masculinas y de niño, así como voces de terapeutas humanos. Los participantes calificaron las voces en función de la claridad, la Expresividad Emocional y la calidad general.

Fase 2: Estudio en persona

En la Fase 2, 94 estudiantes universitarios participaron en un entorno en persona. Escucharon la misma práctica de atención plena y calificaron tres opciones de voz: la mejor voz humana calificada, la mejor voz TTS calificada y una voz TTS personalizada por el usuario. Los participantes tuvieron la capacidad de ajustar las características de la voz TTS como género, acento, tono y velocidad. Esta fase tuvo como objetivo evaluar cómo la personalización afectaba las calificaciones de los usuarios.

Resultados

Evaluación de la calidad de la voz

En las evaluaciones, se encontró que la voz del terapeuta humano recibió calificaciones consistentemente más altas que todas las voces TTS en diferentes condiciones. Los participantes fueron particularmente sensibles a la expresividad emocional, notando que las voces TTS suelen parecer menos naturales que las voces humanas. Aunque la claridad fue calificada positivamente, la expresividad emocional fue generalmente calificada de manera deficiente.

Efectos de la corporalidad física

El estudio también exploró el impacto de la corporalidad física en las calificaciones de la voz. Los resultados indicaron que para una voz TTS, la corporalidad de un robot de asistencia social contribuyó a calificaciones más bajas por parte de los usuarios. Esto sugiere que si una voz no se alinea bien con la presencia física de un agente, podría empeorar la experiencia. Muchos participantes describieron las voces TTS como sonando "robóticas" y "sin emociones", lo que afectó su experiencia de atención plena.

Beneficios de la personalización

Sorprendentemente, las voces TTS personalizadas por los usuarios fueron calificadas significativamente más altas que las voces TTS no personalizadas en todas las condiciones. En algunas ocasiones, las voces personalizadas por los usuarios se desempeñaron al mismo nivel que las mejores voces humanas calificadas. Esto resalta el potencial de permitir que los usuarios ajusten las características de la voz para mejorar significativamente su experiencia.

Discusión

Los resultados del estudio enfatizan la importancia de la expresividad emocional en las voces TTS, especialmente en aplicaciones como la meditación de atención plena. Aunque muchas voces TTS se han vuelto más claras y fáciles de entender, aún quedan rezagadas frente a las voces humanas en la transmisión de emociones. La personalización parece ser una estrategia prometedora para mejorar la experiencia del usuario con la tecnología TTS al permitir ajustes que se adapten a las preferencias individuales.

Implicaciones para la tecnología de atención plena

Los hallazgos sugieren que la tecnología TTS necesita más mejoras para entregar efectivamente la guía de atención plena. Los desarrolladores deberían centrarse en mejorar la expresividad emocional en las voces TTS y considerar seriamente las preferencias del usuario. Las experiencias personalizadas podrían conducir a una mayor satisfacción y adherencia a las prácticas de atención plena.

Limitaciones

Hay limitaciones en esta investigación. La fase en línea tuvo lugar durante la pandemia y no se realizó en persona, lo que puede afectar los resultados. Además, la muestra era en su mayoría de EE. UU., lo que podría no representar a una audiencia más amplia.

Direcciones futuras

La investigación futura debería explorar otros tipos de agentes más allá de los utilizados en este estudio para determinar si hallazgos similares se mantienen. También sería beneficioso investigar cómo las diferencias culturales afectan las preferencias de los usuarios sobre las características de voz en las prácticas de atención plena.

Conclusión

Este estudio ha arrojado luz sobre la calidad de las voces TTS en las prácticas de atención plena y ha destacado la significativa brecha entre las voces TTS y las humanas en expresividad emocional. Es importante destacar que encontró que la personalización juega un papel clave en mejorar la experiencia del usuario. A medida que la tecnología evoluciona, hay una mayor necesidad de voces TTS que no solo informen, sino que también involucren emocionalmente a los usuarios, especialmente en aplicaciones relacionadas con la salud como la meditación de atención plena.

Fuente original

Título: Evaluating and Personalizing User-Perceived Quality of Text-to-Speech Voices for Delivering Mindfulness Meditation with Different Physical Embodiments

Resumen: Mindfulness-based therapies have been shown to be effective in improving mental health, and technology-based methods have the potential to expand the accessibility of these therapies. To enable real-time personalized content generation for mindfulness practice in these methods, high-quality computer-synthesized text-to-speech (TTS) voices are needed to provide verbal guidance and respond to user performance and preferences. However, the user-perceived quality of state-of-the-art TTS voices has not yet been evaluated for administering mindfulness meditation, which requires emotional expressiveness. In addition, work has not yet been done to study the effect of physical embodiment and personalization on the user-perceived quality of TTS voices for mindfulness. To that end, we designed a two-phase human subject study. In Phase 1, an online Mechanical Turk between-subject study (N=471) evaluated 3 (feminine, masculine, child-like) state-of-the-art TTS voices with 2 (feminine, masculine) human therapists' voices in 3 different physical embodiment settings (no agent, conversational agent, socially assistive robot) with remote participants. Building on findings from Phase 1, in Phase 2, an in-person within-subject study (N=94), we used a novel framework we developed for personalizing TTS voices based on user preferences, and evaluated user-perceived quality compared to best-rated non-personalized voices from Phase 1. We found that the best-rated human voice was perceived better than all TTS voices; the emotional expressiveness and naturalness of TTS voices were poorly rated, while users were satisfied with the clarity of TTS voices. Surprisingly, by allowing users to fine-tune TTS voice features, the user-personalized TTS voices could perform almost as well as human voices, suggesting user personalization could be a simple and very effective tool to improve user-perceived quality of TTS voice.

Autores: Zhonghao Shi, Han Chen, Anna-Maria Velentza, Siqi Liu, Nathaniel Dennler, Allison O'Connell, Maja Matarić

Última actualización: 2024-01-07 00:00:00

Idioma: English

Fuente URL: https://arxiv.org/abs/2401.03581

Fuente PDF: https://arxiv.org/pdf/2401.03581

Licencia: https://creativecommons.org/licenses/by-nc-sa/4.0/

Cambios: Este resumen se ha elaborado con la ayuda de AI y puede contener imprecisiones. Para obtener información precisa, consulte los documentos originales enlazados aquí.

Gracias a arxiv por el uso de su interoperabilidad de acceso abierto.

Más de autores

Artículos similares