Simple Science

La science de pointe expliquée simplement

# Informatique# Interaction homme-machine# Intelligence artificielle# Robotique

Évaluation des voix Text-to-Speech pour la pleine conscience

Une étude évalue la qualité et la personnalisation des voix TTS dans les pratiques de pleine conscience.

― 7 min lire


Pleine conscience etPleine conscience etqualité de voix TTSconscience.voix TTS dans les pratiques de pleineL'étude met en avant les limites des
Table des matières

La pleine conscience, c’est une méthode qui aide les gens à améliorer leur santé mentale en se concentrant sur le fait d'être présent et conscient. Beaucoup d'études montrent que la pleine conscience peut réduire le stress, l'anxiété et la dépression. Cependant, assister à des sessions de pleine conscience en personne peut être difficile pour certains à cause du coût et de la disponibilité. Pour rendre la pleine conscience plus accessible, on explore des options technologiques comme des applis mobiles et des robots. Ces technologies utilisent souvent des scripts préenregistrés, ce qui limite le soutien en temps réel. C'est là que la technologie de synthèse vocale (TTS) entre en jeu. La TTS peut créer un guidage vocal Personnalisé et immédiat pour la pratique de la pleine conscience. Cependant, il y a des inquiétudes sur la qualité de ces voix TTS, surtout en ce qui concerne leur capacité à transmettre des émotions efficacement.

Le besoin de voix TTS de qualité

Pour que les pratiques de pleine conscience soient efficaces, il est crucial que les voix utilisées pour guider les utilisateurs soient de haute qualité. Actuellement, les voix TTS sont principalement évaluées en fonction de leur clarté et de leur facilité de compréhension. Les avancées récentes ont rendu les voix TTS plus efficaces pour la lecture. Cependant, il est encore nécessaire d'évaluer comment ces voix se comportent dans des contextes comme la pleine conscience, qui nécessitent un engagement émotionnel.

Objectifs de l'étude

L'objectif principal de cette étude était d'évaluer la qualité perçue par les utilisateurs de différentes voix TTS lorsqu'elles étaient utilisées pour la méditation de pleine conscience. Plus spécifiquement, elle visait à découvrir comment différents types de voix étaient évaluées par les utilisateurs dans diverses situations : sans agent, avec un agent conversationnel, ou un robot d'assistance sociale. De plus, l'étude cherchait à savoir si la personnalisation des voix TTS pouvait améliorer la satisfaction des utilisateurs.

Méthodes

Conception de l'étude

L'étude a été divisée en deux phases : un sondage en ligne et une étude en personne. Dans la première phase, le sondage en ligne a utilisé Amazon Mechanical Turk pour évaluer la qualité de différentes voix TTS par rapport aux voix humaines. Les participants ont été assignés au hasard pour écouter des pratiques de pleine conscience guidées avec diverses options de voix. Dans la deuxième phase, des participants dans un cadre de laboratoire ont écouté des voix sélectionnées et ont eu la possibilité de personnaliser les caractéristiques de la voix TTS.

Phase 1 : Sondage en ligne

Dans la phase 1, un total de 471 participants ont été impliqués. Ils ont écouté une pratique de pleine conscience de deux minutes livrée avec différents types de voix. Ces voix comprenaient des voix TTS féminines, masculines et enfantines, ainsi que des voix de thérapeutes humains. Les participants ont évalué les voix en fonction de la clarté, de l'Expressivité Émotionnelle et de la qualité globale.

Phase 2 : Étude en personne

Dans la phase 2, 94 étudiants universitaires ont participé dans un cadre en personne. Ils ont écouté la même pratique de pleine conscience et évalué trois options vocales : la meilleure voix humaine évaluée, la meilleure voix TTS évaluée, et une voix TTS personnalisée par l'utilisateur. Les participants avaient la possibilité de peaufiner les caractéristiques de la voix TTS comme le genre, l'accent, la hauteur et la vitesse. Cette phase visait à évaluer comment la personnalisation affectait les évaluations des utilisateurs.

Résultats

Évaluation de la qualité des voix

Dans les évaluations, il a été constaté que la voix du thérapeute humain recevait systématiquement des notes plus élevées que toutes les voix TTS dans différentes conditions. Les participants étaient particulièrement sensibles à l'expressivité émotionnelle, notant que les voix TTS semblaient souvent moins naturelles que les voix humaines. Bien que la clarté ait été évaluée positivement, l'expressivité émotionnelle a généralement été mal notée.

Effets de l'incarnation physique

L'étude a également exploré l'impact de l'incarnation physique sur les évaluations vocales. Les résultats ont indiqué que pour une voix TTS, l'incarnation d'un robot d'assistance sociale contribuait à des notes utilisateur plus basses. Cela suggère que si une voix ne s'aligne pas bien avec la présence physique d'un agent, cela peut en fait aggraver l'expérience. Beaucoup de participants ont décrit les voix TTS comme sonnant "robotique" et "sans émotion", ce qui a affecté leur expérience de pleine conscience.

Avantages de la personnalisation

Étonnamment, les voix TTS personnalisées par l'utilisateur ont été notées significativement plus haut que les voix TTS non personnalisées dans toutes les conditions. Dans certains cas, les voix personnalisées par l'utilisateur ont obtenu des résultats équivalents aux meilleures voix humaines notées. Cela met en évidence le potentiel de permettre aux utilisateurs d'ajuster les caractéristiques vocales pour améliorer leur expérience de manière significative.

Discussion

Les résultats de l'étude soulignent l'importance de l'expressivité émotionnelle dans les voix TTS, particulièrement dans des applications comme la méditation de pleine conscience. Bien que beaucoup de voix TTS soient devenues plus claires et plus faciles à comprendre, elles restent en retard par rapport aux voix humaines en matière de transmission d'émotion. La personnalisation semble être une stratégie prometteuse pour améliorer l'expérience utilisateur avec la technologie TTS en permettant des ajustements qui correspondent aux préférences individuelles.

Implications pour la technologie de pleine conscience

Les résultats suggèrent que la technologie TTS a besoin de s'améliorer encore davantage pour délivrer efficacement des guidages en pleine conscience. Les développeurs devraient se concentrer sur l'amélioration de l'expressivité émotionnelle des voix TTS et prendre en compte sérieusement les préférences des utilisateurs. Des expériences personnalisées pourraient conduire à une plus grande satisfaction et à un meilleur engagement envers les pratiques de pleine conscience.

Limitations

Il y a des limites dans cette recherche. La phase en ligne a eu lieu pendant la pandémie et n'a pas été réalisée en personne, ce qui peut affecter les résultats. De plus, l'échantillon était principalement issu des États-Unis, ce qui pourrait ne pas représenter un public plus large.

Directions futures

Les recherches futures devraient explorer d'autres types d'agents au-delà de ceux utilisés dans cette étude pour déterminer si des résultats similaires s'appliquent. Il serait également bénéfique d'examiner comment les différences culturelles affectent les préférences des utilisateurs en matière de caractéristiques vocales dans les pratiques de pleine conscience.

Conclusion

Cette étude a éclairé la qualité des voix TTS dans les pratiques de pleine conscience et a souligné l'écart significatif entre les voix TTS et humaines en matière d'expressivité émotionnelle. Il a surtout été constaté que la personnalisation joue un rôle clé dans l'amélioration de l'expérience utilisateur. À mesure que la technologie évolue, il y a un besoin croissant de voix TTS qui non seulement informent, mais engagent aussi émotionnellement les utilisateurs, en particulier dans des applications liées à la santé comme la méditation de pleine conscience.

Source originale

Titre: Evaluating and Personalizing User-Perceived Quality of Text-to-Speech Voices for Delivering Mindfulness Meditation with Different Physical Embodiments

Résumé: Mindfulness-based therapies have been shown to be effective in improving mental health, and technology-based methods have the potential to expand the accessibility of these therapies. To enable real-time personalized content generation for mindfulness practice in these methods, high-quality computer-synthesized text-to-speech (TTS) voices are needed to provide verbal guidance and respond to user performance and preferences. However, the user-perceived quality of state-of-the-art TTS voices has not yet been evaluated for administering mindfulness meditation, which requires emotional expressiveness. In addition, work has not yet been done to study the effect of physical embodiment and personalization on the user-perceived quality of TTS voices for mindfulness. To that end, we designed a two-phase human subject study. In Phase 1, an online Mechanical Turk between-subject study (N=471) evaluated 3 (feminine, masculine, child-like) state-of-the-art TTS voices with 2 (feminine, masculine) human therapists' voices in 3 different physical embodiment settings (no agent, conversational agent, socially assistive robot) with remote participants. Building on findings from Phase 1, in Phase 2, an in-person within-subject study (N=94), we used a novel framework we developed for personalizing TTS voices based on user preferences, and evaluated user-perceived quality compared to best-rated non-personalized voices from Phase 1. We found that the best-rated human voice was perceived better than all TTS voices; the emotional expressiveness and naturalness of TTS voices were poorly rated, while users were satisfied with the clarity of TTS voices. Surprisingly, by allowing users to fine-tune TTS voice features, the user-personalized TTS voices could perform almost as well as human voices, suggesting user personalization could be a simple and very effective tool to improve user-perceived quality of TTS voice.

Auteurs: Zhonghao Shi, Han Chen, Anna-Maria Velentza, Siqi Liu, Nathaniel Dennler, Allison O'Connell, Maja Matarić

Dernière mise à jour: 2024-01-07 00:00:00

Langue: English

Source URL: https://arxiv.org/abs/2401.03581

Source PDF: https://arxiv.org/pdf/2401.03581

Licence: https://creativecommons.org/licenses/by-nc-sa/4.0/

Changements: Ce résumé a été créé avec l'aide de l'IA et peut contenir des inexactitudes. Pour obtenir des informations précises, veuillez vous référer aux documents sources originaux dont les liens figurent ici.

Merci à arxiv pour l'utilisation de son interopérabilité en libre accès.

Plus d'auteurs

Articles similaires