Einführung des JNV-Korpus: Eine neue Sammlung japanischer nonverbaler vokalisierungen
Das JNV-Korpus fängt verschiedene emotionale Geräusche auf Japanisch ein und bereichert bestehende Sammlungen.
― 6 min Lesedauer
Inhaltsverzeichnis
Wir stellen eine neue Sammlung von Geräuschen vor, die das JNV-Korpus heisst. Diese Sammlung konzentriert sich auf nonverbale Vokalisierungen im Japanischen, also Geräusche, die ohne Worte gemacht werden, wie Lachen oder Schreien. Das JNV-Korpus enthält eine breite Palette unterschiedlicher Phrasen und Emotionen, die eine Lücke in bestehenden Sammlungen füllen, wo diese Vielfalt gefehlt hat. Diese Vielfalt ist entscheidend für das Studium von Emotionen und unterstützt Aufgaben wie das Erkennen von Gefühlen durch Geräusche.
Bedeutung von Nonverbalen Vokalisierungen
Nonverbale Vokalisierungen (NVs) sind Geräusche, die Menschen machen, um Gefühle auszudrücken, ohne Sprache zu verwenden. Sie spielen eine Schlüsselrolle in der Kommunikation. Beispiele dafür sind Lachen, Schluchzen und Schreien. NVs sind lässig und werden oft in alltäglichen Gesprächen gehört. Eine Hauptfunktion dieser Geräusche besteht darin, Emotionen auszudrücken. Diese emotionalen Vokalisierungen finden sich in vielen Kulturen weltweit.
Trotz ihrer Bedeutung wird in der meisten Forschung zu Sprach Emotionen NVs oft übersehen. Studien zeigen jedoch, dass NVs entscheidend für die Verarbeitung von Emotionen in verschiedenen Bereichen sind, einschliesslich Psychologie und menschlicher Entwicklung. Daher sind mehr Ressourcen und Arbeit in diesem Bereich notwendig.
Einschränkungen Bestehender Korpora
Während es viele Sammlungen von NVs für Englisch gibt, sind japanische Sammlungen relativ rar. Einige bestehende japanische Datenbanken, wie OGVC, sammeln Geräusche aus Online-Spiel-Chats. Allerdings leiden diese Sammlungen oft unter einem Ungleichgewicht in der Emotionsverteilung und konzentrieren sich hauptsächlich auf spontane Sprache statt auf emotionale Ausdrücke.
Eine andere Sammlung von japanischen NVs untersuchte kulturelle Einflüsse auf das Erkennen von NVs. Sie schufen eine kleine Sammlung, die verschiedene Emotionen behandelte. Doch aufgrund ihres Fokus auf kulturelle Analysen verpassten sie die Chance, eine vielfältige Sammlung von Phrasen zusammenzustellen.
Die derzeitige mangelnde emotionale und phrasale Vielfalt in japanischen NV-Datenbanken schränkt deren Anwendung in der realen Welt ein, wie zum Beispiel beim Erkennen von Emotionen oder beim Erstellen von Sprachsystemen.
Das JNV Korpus
Um diese Probleme zu lösen, stellen wir das JNV-Korpus vor, das die grösste Sammlung japanischer NVs ist, die eine vielfältige Palette von Phrasen und Emotionen umfasst. Das Korpus wurde mit einer zweiphasigen Entwurfsmethode erstellt. Diese Methode umfasst:
- Sammlung verschiedener Phrasen durch Crowdsourcing.
- Aufnahme von NVs, indem Sprecher in emotionale Szenarien platziert werden.
Mit dieser Methode haben wir eine erhebliche Anzahl von Vokalisierungen von Sprechern gesammelt und so eine solide Repräsentation von Emotionen gewährleistet.
Phase 1: Phrasen sammeln
In dieser Phase konzentrierten wir uns darauf, verschiedene Phrasen von japanischen NVs durch Crowdsourcing zu sammeln. Wir teilten die Aufgaben in zwei Teile auf:
- Die Arbeiter sollten Phrasen schreiben, die bestimmte Emotionen ausdrücken.
- Die Arbeiter wählten Emotionen aus, die ihrer Meinung nach durch gegebene Phrasen vermittelt wurden.
Wir veröffentlichten diese Aufgaben auf einer Crowdsourcing-Plattform und verwendeten die sechs Grundemotionen: Wut, Ekel, Angst, Freude, Traurigkeit und Überraschung als unsere Ziele. Nach dem Sammeln der Antworten bereinigten wir die Daten, indem wir ähnliche Phrasen zusammenführten und solche entfernten, die nicht gebräuchlich waren oder nicht mit unserer Definition von NVs übereinstimmten. Das Endergebnis war eine Sammlung von 87 einzigartigen Phrasen.
Phase 2: Vokalisierungen aufnehmen
In der zweiten Phase zeichneten wir NVs mit den gesammelten Phrasen auf. Allerdings hatten wir zwei Hauptprobleme:
- Einige NVs könnten in geschriebenen Phrasen nicht erfasst werden.
- Sprecher benötigen oft Kontext, um Emotionen korrekt auszudrücken.
Um diese Probleme anzugehen, beinhalteten wir eine Sitzung, in der Sprecher NVs frei ausdrücken konnten, ohne durch spezifische Phrasen eingeschränkt zu sein. Zusätzlich präsentierten wir emotionale Szenarien, um Gefühle hervorzurufen. Für jede Emotion bereiteten wir mehrere Szenarien vor, um den Sprechern zu helfen, sich mit den erforderlichen Emotionen zu verbinden.
Während der Aufnahme wurden die Sprecher ermutigt, Emotionen auf natürliche Weise auszudrücken. Wenn eine Aufnahme die beabsichtigte Emotion nicht klar vermittelte, erlaubten wir den Sprechern, den Take zu wiederholen. Dieser Prozess stellte sicher, dass wir qualitativ hochwertige NVs sammelten, die verschiedene Emotionen wirklich repräsentierten.
Bewertung des JNV Korpus
Als Nächstes mussten wir die Qualität des JNV Korpus validieren. Wir führten sowohl objektive als auch subjektive Bewertungen durch, um zu bestätigen, dass die in den NVs ausgedrückten Emotionen genau erkannt werden konnten.
Objektive Bewertung
Wir trainierten Modelle mit verschiedenen Merkmalen, um zu bestimmen, wie gut die NVs erkannt werden konnten. Die Ergebnisse zeigten, dass die gesammelten NVs sowohl von Menschen als auch von Modellen genau identifiziert werden konnten. Die Modelle erzielten Leistungen, die über das zufällige Raten hinausgingen, was darauf hindeutet, dass die Emotionen in den NVs unterscheidbar waren.
Subjektive Bewertung
In einer separaten Bewertung hörten Arbeiter NVs und wählten die implizierte Emotion aus. Diese Methode zeigte eine insgesamt hohe Erkennungsgenauigkeit, wobei einige Emotionen wie Wut und Freude klar identifiziert wurden. Wir bemerkten jedoch Verwirrung zwischen Emotionen wie Angst und Überraschung, was auch in früheren Studien beobachtet wurde. Ausserdem wurde Traurigkeit gelegentlich mit anderen Emotionen verwechselt, wahrscheinlich aufgrund der unterschiedlichen Ausdrücke, die unter diesem Begriff fallen.
Authentizität der Vokalisierungen
Authentizität ist entscheidend, da sie zeigt, wie nah die erstellten NVs echten Ausdrucksformen ähneln. Die Arbeiter bewerteten die Authentizität jeder aufgenommenen NV, indem sie einschätzten, ob sie echt erschien. Die Ergebnisse deuteten darauf hin, dass die NVs Emotionen authentisch übermittelten, ähnlich wie in anderen Studien festgestellt wurde.
Analyse der Vokalausbreitungen
Nachdem wir das Korpus validiert hatten, untersuchten wir auch die Vokalausbreitungen in den gesammelten Phrasen. Unser Ziel war es, die Beziehung zwischen Vokalatypen und den in japanischen NVs ausgedrückten Emotionen zu verstehen. Durch die Analyse der Häufigkeiten verschiedener Vokale, die mit bestimmten Emotionen verbunden sind, fanden wir heraus, dass jeder Vokalatyp mit mehreren Gefühlen verknüpft war.
Interessanterweise stellten wir fest, dass der Vokal "a" in den meisten Emotionen verbreitet war, ähnlich wie bei den Ergebnissen in englischen NVs. Der Vokal "e" trat jedoch im Japanischen häufiger auf als im Englischen, was auf mögliche Unterschiede in der Ausdrucksweise von Emotionen durch Geräusche in diesen Sprachen hindeutet.
Fazit
Wir haben das JNV Korpus vorgestellt, die grösste Sammlung japanischer nonverbaler Vokalisierungen, die sich auf eine vielfältige Palette von Phrasen und Emotionen konzentriert. Unsere zweiphasige Entwurfsmethode ermöglicht es uns, systematisch eine breite Palette von NVs zu sammeln und aufzunehmen. Die Bewertungen bestätigten, dass die NVs erkannt und als authentisch angesehen werden können. Darüber hinaus hat unsere Analyse der Vokalausbreitungen interessante Beziehungen zwischen Klängen und Emotionen aufgezeigt.
Insgesamt bietet diese Arbeit eine wertvolle Ressource für zukünftige Studien zu Emotionen und könnte Fortschritte in Bereichen wie der Sprachsynthese unterstützen, wo Ausdrucksstärke entscheidend ist. Das JNV Korpus ist ein bedeutender Fortschritt beim Verständnis, wie Emotionen durch nonverbale Geräusche im Japanischen kommuniziert werden können.
Titel: JNV Corpus: A Corpus of Japanese Nonverbal Vocalizations with Diverse Phrases and Emotions
Zusammenfassung: We present JNV (Japanese Nonverbal Vocalizations) corpus, a corpus of Japanese nonverbal vocalizations (NVs) with diverse phrases and emotions. Existing Japanese NV corpora lack phrase or emotion diversity, which makes it difficult to analyze NVs and support downstream tasks like emotion recognition. We first propose a corpus-design method that contains two phases: (1) collecting NVs phrases based on crowd-sourcing; (2) recording NVs by stimulating speakers with emotional scenarios. We then collect $420$ audio clips from $4$ speakers that cover $6$ emotions based on the proposed method. Results of comprehensive objective and subjective experiments demonstrate that the collected NVs have high emotion recognizability and authenticity that are comparable to previous corpora of English NVs. Additionally, we analyze the distributions of vowel types in Japanese NVs. To our best knowledge, JNV is currently the largest Japanese NVs corpus in terms of phrase and emotion diversities.
Autoren: Detai Xin, Shinnosuke Takamichi, Hiroshi Saruwatari
Letzte Aktualisierung: 2023-05-21 00:00:00
Sprache: English
Quell-URL: https://arxiv.org/abs/2305.12445
Quell-PDF: https://arxiv.org/pdf/2305.12445
Lizenz: https://creativecommons.org/licenses/by-sa/4.0/
Änderungen: Diese Zusammenfassung wurde mit Unterstützung von AI erstellt und kann Ungenauigkeiten enthalten. Genaue Informationen entnehmen Sie bitte den hier verlinkten Originaldokumenten.
Vielen Dank an arxiv für die Nutzung seiner Open-Access-Interoperabilität.