Simple Science

最先端の科学をわかりやすく解説

# 電気工学・システム科学# サウンド# 音声・音声処理

JNVコーパスの紹介:新しい日本の非言語的な声のコレクション

JNVコーパスは、日本語の多様な感情音を収集していて、既存のコレクションを豊かにしてるよ。

― 1 分で読む


日本の声の新しい洞察日本の声の新しい洞察ョン。感情の音を研究するための画期的なコレクシ
目次

新しい音のコレクション、JNVコーパスを紹介します。このコレクションは、日本語の非言語的な声(言葉を使わずに発する音、例えば笑いや泣き声)に焦点を当てています。JNVコーパスは、さまざまなフレーズや感情を含んでおり、既存のコレクションでは足りなかった多様性を埋めています。このバラエティは、感情を研究したり、音を通じて感情を認識するタスクを支援するために重要です。

非言語的な声の重要性

非言語的な声(NV)は、言語を使わずに気持ちを表現する音です。コミュニケーションの中で重要な役割を果たしています。例としては、笑い声、すすり泣き、叫び声などがあります。NVはカジュアルで、日常会話でもよく聞かれます。これらの音の主な機能は感情を表現することです。多くの文化でこうした感情的な声が見られます。

重要性にもかかわらず、スピーチの感情に関する研究の多くはNVを見落としがちです。でも、研究によれば、心理学や人間発達を含むさまざまな分野で感情処理にNVが欠かせないことがわかっています。だから、もっとリソースや研究が必要です。

既存のコーパスの限界

英語のNVコレクションはたくさんあるけど、日本語のコレクションはあまり多くありません。OGVCのような日本のデータベースはオンラインゲームのチャットから音を集めていますが、これらのコレクションは感情のバランスが悪いことが多く、主に自発的なスピーチに焦点を当てています。

別の日本のNVのセットは、NVの認識に関する文化的影響を研究しましたが、さまざまな感情に触れる小さなコレクションを作ったものの、多様なフレーズを集める機会を逃しています。

現在の日本のNVデータベースの感情やフレーズの多様性の欠如は、感情認識やスピーチシステムの作成などの実世界での利用に制限をかけています。

JNVコーパス

これらの問題に対処するために、JNVコーパスを紹介します。これは、日本語のNVの中で最も多様なフレーズや感情を含むコレクションです。このコーパスは二段階の設計方法を使って作成されました。この方法は以下の通りです:

  1. クラウドソーシングを通じて多様なフレーズを集めること。
  2. 感情的なシナリオにスピーカーを配置してNVを録音すること。

この方法を使って、感情の表現をしっかり集めました。

フェーズ1:フレーズの収集

このフェーズでは、クラウドソーシングを使って日本語のNVのさまざまなフレーズを集めることに集中しました。タスクは二つに分かれました:

  1. 労働者に特定の感情を表現するフレーズを書いてもらう。
  2. 労働者が与えられたフレーズが伝えると考える感情を選ぶ。

これらのタスクをクラウドソーシングプラットフォームに公開し、怒り、嫌悪、恐怖、幸福、悲しみ、驚きの6つの基本感情をターゲットにしました。応答を集めた後、似たようなフレーズを統合し、一般的でないものやNVの定義に合わないものを取り除いてデータを整理しました。最終的には87のユニークなフレーズが集まりました。

フェーズ2:声の録音

二つ目のフェーズでは、収集したフレーズを使ってNVを録音しました。しかし、二つの主な課題に直面しました:

  1. 一部のNVは書かれたフレーズに捕らえられないかもしれない。
  2. スピーカーは正しく感情を表現するために文脈が必要なことが多い。

これらの問題に対処するため、スピーカーが特定のフレーズに制約されずに自由にNVを表現できるセッションを設けました。また、感情を引き出すために感情的なシナリオを提示しました。各感情のために、スピーカーが必要な感情に結びつけられるようにいくつかのシナリオを準備しました。

録音中、スピーカーには自然に感情を表現するよう奨励しました。録音が意図した感情を明確に伝えなかった場合、スピーカーがテイクをやり直すことを許可しました。このプロセスにより、異なる感情を本当に表現する高品質なNVを集めることができました。

JNVコーパスの評価

次に、JNVコーパスの質を検証する必要がありました。NVに表現された感情が正確に認識できるかを確認するために、客観的および主観的な評価を行いました。

客観的評価

さまざまな特徴を使ってモデルを訓練し、NVがどれだけ認識できるかを調べました。結果は、収集したNVが人間とモデルの両方によって正確に識別できることを示しました。モデルはランダムな推測を超えるパフォーマンスを示し、NVの中の感情が区別できることを示しました。

主観的評価

別の評価では、労働者がNVを聞いて、暗示された感情を選びました。この方法では、全体的に高い認識精度が示され、怒りや幸福のような感情は明確に識別されました。しかし、恐怖と驚きのような感情の間で混乱が見られ、これは以前の研究でも観察されています。さらに、悲しみは他の感情と混同されることがあり、そのラベルの下に多様な表現が含まれているためだと考えられます。

声の信憑性

信憑性は重要で、作成したNVが実際の表現にどれだけ近いかを示します。労働者は、各録音されたNVが本物のように見えるかを評価しました。その結果、NVは他の研究と同様に、感情を本物らしく伝えていることが示されました。

母音分布の分析

コーパスを検証した後、収集したフレーズの母音分布も調べました。私たちの目標は、日本語のNVにおける母音の種類と表現された感情の関係を理解することでした。特定の感情に関連するさまざまな母音の頻度を分析することで、各母音の種類は複数の感情と関連していることがわかりました。

興味深いことに、母音「a」はほとんどの感情で広く見られ、英語のNVの結果と似ています。ただし、母音「e」は日本語では英語よりも頻繁に現れ、これらの言語での音を通じた感情の表現における違いが示唆されます。

結論

私たちは、さまざまなフレーズや感情に焦点を当てた日本語の非言語的な声の最大のコレクションであるJNVコーパスを紹介しました。二段階の設計方法を使って、体系的に幅広いNVを集めて録音することができました。評価では、NVが認識でき、信憑性があると確認されました。また、母音分布の分析からは、音と感情の間に興味深い関係が浮かび上がりました。

全体的に、この研究は今後の感情に関する研究の貴重なリソースを提供し、表現力が重要な音声合成の分野などの進展を支えるかもしれません。JNVコーパスは、日本語における非言語的な音を通じて感情がどのようにコミュニケートされるかを理解するための重要な一歩です。

オリジナルソース

タイトル: JNV Corpus: A Corpus of Japanese Nonverbal Vocalizations with Diverse Phrases and Emotions

概要: We present JNV (Japanese Nonverbal Vocalizations) corpus, a corpus of Japanese nonverbal vocalizations (NVs) with diverse phrases and emotions. Existing Japanese NV corpora lack phrase or emotion diversity, which makes it difficult to analyze NVs and support downstream tasks like emotion recognition. We first propose a corpus-design method that contains two phases: (1) collecting NVs phrases based on crowd-sourcing; (2) recording NVs by stimulating speakers with emotional scenarios. We then collect $420$ audio clips from $4$ speakers that cover $6$ emotions based on the proposed method. Results of comprehensive objective and subjective experiments demonstrate that the collected NVs have high emotion recognizability and authenticity that are comparable to previous corpora of English NVs. Additionally, we analyze the distributions of vowel types in Japanese NVs. To our best knowledge, JNV is currently the largest Japanese NVs corpus in terms of phrase and emotion diversities.

著者: Detai Xin, Shinnosuke Takamichi, Hiroshi Saruwatari

最終更新: 2023-05-21 00:00:00

言語: English

ソースURL: https://arxiv.org/abs/2305.12445

ソースPDF: https://arxiv.org/pdf/2305.12445

ライセンス: https://creativecommons.org/licenses/by-sa/4.0/

変更点: この要約はAIの助けを借りて作成されており、不正確な場合があります。正確な情報については、ここにリンクされている元のソース文書を参照してください。

オープンアクセスの相互運用性を利用させていただいた arxiv に感謝します。

著者たちからもっと読む

類似の記事