Simple Science

最先端の科学をわかりやすく解説

# コンピューターサイエンス# ヒューマンコンピュータインタラクション# 人工知能# ロボット工学

マインドフルネスのためのテキスト読み上げ音声の評価

研究は、マインドフルネスの実践におけるTTS音声の質とパーソナライズを評価しています。

― 1 分で読む


マインドフルネスとTTS音マインドフルネスとTTS音声の質音声の限界を強調している。研究はマインドフルネス実践におけるTTS
目次

マインドフルネスは、人々が現在に意識を向けていることに焦点を当てることでメンタルヘルスを改善する手法だよ。多くの研究が、マインドフルネスがストレス、不安、うつを軽減できることを示している。ただ、対面でのマインドフルネスセッションに参加するのは、コストや空き状況のせいで難しい人もいるんだ。だから、モバイルアプリやロボットみたいなテクノロジーを使って、マインドフルネスをもっと身近にする方法が探られている。これらのテクノロジーは、事前に録音されたスクリプトを使うことが多く、リアルタイムのサポートが難しい。そこで、音声合成(TTS)技術が登場するんだ。TTSは、マインドフルネスの実践に対して個別化された即時の音声ガイダンスを提供できる。ただ、これらのTTSの声の質、特に感情をうまく伝えられるかどうかについて懸念があるんだ。

TTS声の質の重要性

マインドフルネスの実践が効果的であるためには、利用者を導く声の質が高いことが重要なんだ。現在、TTSの声は主にクリアさや理解のしやすさに基づいて評価されている。最近の進歩で、TTSの声は読み上げにおいてはより効果的になってきたけど、感情的な関与が必要なマインドフルネスのような状況では、声のパフォーマンスを評価する必要があるんだ。

研究の目的

この研究の主な目的は、マインドフルネス瞑想で使用される異なるTTSの声の質について、ユーザーがどのように認識しているかを評価することだったんだ。特に、異なるタイプの声が、エージェントなし、会話エージェント、または社会的支援ロボットの状況でどのように評価されたかを調べたんだ。さらに、TTSの声をパーソナライズすることでユーザーの満足度が向上するかどうかも調査することを目指したんだ。

方法

研究のデザイン

この研究は、オンライン調査と対面研究の2つのフェーズに分かれていたよ。最初のフェーズでは、オンライン調査で、アマゾン・メカニカル・タークを使用して、異なるTTSの声の質を人間の声と比較したんだ。参加者はさまざまな声のオプションを使ってガイド付きのマインドフルネス実践を聞くようにランダムに割り当てられた。2番目のフェーズでは、ラボ環境で参加者が選択された声を聞いて、TTSの声の特徴をパーソナライズする機会が与えられたんだ。

フェーズ1:オンライン調査

フェーズ1では、471人の参加者が関与したよ。彼らは、異なる声のタイプを使用して提供された2分間のマインドフルネス実践を聞いたんだ。この声には、女性的、男性的、子供っぽいTTSの声、そして人間のセラピストの声が含まれていた。参加者は、クリアさ、感情表現、全体的な質に基づいて声を評価したんだ。

フェーズ2:対面研究

フェーズ2では、94人の大学生が対面の環境に参加したよ。彼らは同じマインドフルネス実践を聞いて、評価された最高の人間の声、評価された最高のTTSの声、そしてユーザーがパーソナライズしたTTSの声の3つのオプションを評価したんだ。参加者は、性別、アクセント、ピッチ、スピードなどのTTSの声の特徴を微調整することができた。このフェーズの目的は、パーソナライズがユーザーの評価にどのように影響するかを評価することだったんだ。

結果

声の質の評価

評価では、人間のセラピストの声が、異なる条件で全てのTTSの声よりも一貫して高い評価を受けたんだ。参加者は特に感情表現に敏感で、TTSの声はしばしば人間の声よりも自然に聞こえないと感じていた。クリアさはポジティブに評価されていたけど、感情表現は一般的に低評価だったよ。

身体的具現化の影響

この研究では、声の評価に対する身体的具現化の影響も探討された。結果は、あるTTSの声に対して、社会的支援ロボットの具現化がユーザーの評価を低下させることに寄与したことを示していたんだ。つまり、声がエージェントの身体的存在と合わないと、実際に体験が悪化するかもしれない。多くの参加者がTTSの声を「ロボティック」や「感情がない」と感じていて、それが彼らのマインドフルネス体験に影響を与えていたんだ。

パーソナライズの利点

驚くべきことに、ユーザーがパーソナライズしたTTSの声は、全ての条件で非パーソナライズのTTSの声よりも大幅に高く評価されたよ。いくつかのケースでは、ユーザーがパーソナライズした声が最高評価を受けた人間の声と同等のパフォーマンスを示したんだ。これにより、ユーザーが声の特徴を調整することで、体験を大幅に改善できる可能性があることが強調されたんだ。

議論

この研究結果は、特にマインドフルネス瞑想のようなアプリケーションにおいて、TTSの声の感情表現の重要性を強調しているよ。多くのTTSの声はクリアさや理解のしやすさが向上しているけど、感情を伝える点では人間の声にはまだ及ばない。パーソナライズは、ユーザーの好みに合わせた調整を可能にすることで、TTS技術のユーザー体験を改善するための有望な戦略のようだね。

マインドフルネス技術への影響

結果は、TTS技術がマインドフルネスのガイダンスを効果的に提供するためにさらなる改善が必要であることを示唆しているよ。開発者は、TTSの声の感情表現を強化することに焦点を当て、ユーザーの好みを真剣に考慮すべきなんだ。パーソナライズされた体験は、マインドフルネスの実践に対する満足度や遵守を高める可能性があるんだ。

制限事項

この研究には制限があるよ。オンラインフェーズはパンデミックの間に行われ、対面ではなかったため、結果に影響を及ぼす可能性があるんだ。また、サンプルは主にアメリカからのもので、広い聴衆を代表しているわけではないかもしれない。

今後の方向性

今後の研究では、この研究で使用されたエージェント以外の他のエージェントのタイプを探求して、似たような結果が得られるかどうかを確認する必要があるよ。また、文化的な違いがマインドフルネスの実践における声の特徴の好みにどのように影響するかを調査するのも有益だと思う。

結論

この研究は、マインドフルネス実践におけるTTSの声の質に光を当て、感情表現におけるTTSと人間の声の間の重要なギャップを浮き彫りにしたんだ。特に、パーソナライズがユーザー体験の改善において重要な役割を果たすことがわかったよ。テクノロジーが進化する中で、ユーザーに情報を提供するだけでなく、感情的に関与させるTTSの声が求められているんだ。特にマインドフルネス瞑想のような健康関連のアプリケーションでは、そういう声が必要なんだよ。

オリジナルソース

タイトル: Evaluating and Personalizing User-Perceived Quality of Text-to-Speech Voices for Delivering Mindfulness Meditation with Different Physical Embodiments

概要: Mindfulness-based therapies have been shown to be effective in improving mental health, and technology-based methods have the potential to expand the accessibility of these therapies. To enable real-time personalized content generation for mindfulness practice in these methods, high-quality computer-synthesized text-to-speech (TTS) voices are needed to provide verbal guidance and respond to user performance and preferences. However, the user-perceived quality of state-of-the-art TTS voices has not yet been evaluated for administering mindfulness meditation, which requires emotional expressiveness. In addition, work has not yet been done to study the effect of physical embodiment and personalization on the user-perceived quality of TTS voices for mindfulness. To that end, we designed a two-phase human subject study. In Phase 1, an online Mechanical Turk between-subject study (N=471) evaluated 3 (feminine, masculine, child-like) state-of-the-art TTS voices with 2 (feminine, masculine) human therapists' voices in 3 different physical embodiment settings (no agent, conversational agent, socially assistive robot) with remote participants. Building on findings from Phase 1, in Phase 2, an in-person within-subject study (N=94), we used a novel framework we developed for personalizing TTS voices based on user preferences, and evaluated user-perceived quality compared to best-rated non-personalized voices from Phase 1. We found that the best-rated human voice was perceived better than all TTS voices; the emotional expressiveness and naturalness of TTS voices were poorly rated, while users were satisfied with the clarity of TTS voices. Surprisingly, by allowing users to fine-tune TTS voice features, the user-personalized TTS voices could perform almost as well as human voices, suggesting user personalization could be a simple and very effective tool to improve user-perceived quality of TTS voice.

著者: Zhonghao Shi, Han Chen, Anna-Maria Velentza, Siqi Liu, Nathaniel Dennler, Allison O'Connell, Maja Matarić

最終更新: 2024-01-07 00:00:00

言語: English

ソースURL: https://arxiv.org/abs/2401.03581

ソースPDF: https://arxiv.org/pdf/2401.03581

ライセンス: https://creativecommons.org/licenses/by-nc-sa/4.0/

変更点: この要約はAIの助けを借りて作成されており、不正確な場合があります。正確な情報については、ここにリンクされている元のソース文書を参照してください。

オープンアクセスの相互運用性を利用させていただいた arxiv に感謝します。

著者たちからもっと読む

類似の記事