VoxHakka : Préserver le Hakka taïwanais avec la technologie
Un nouveau système aide à redonner vie à la langue hakka taïwanaise.
Li-Wei Chen, Hung-Shin Lee, Chen-Chi Chang
― 7 min lire
Table des matières
VoxHakka est un nouveau système qui transforme le texte écrit en paroles prononcées en Hakka taïwanais, une langue pas super soutenue. Ce système est important parce qu'il aide à préserver une langue dont beaucoup de gens à Taïwan perdent le contact, surtout les plus jeunes qui préfèrent souvent le mandarin ou le Hokkien taïwanais. Le but de VoxHakka, c'est de créer une parole qui sonne naturelle dans divers dialectes Hakka, ce qui peut aider les gens à apprendre et à promouvoir la langue.
Importance des systèmes de synthèse vocale
Les systèmes de synthèse vocale (TTS) sont précieux pour les langues à faible ressource, c'est-à-dire des langues qui n'ont pas beaucoup d'outils ou de ressources pour l'enseignement et l'apprentissage. Ces systèmes jouent un rôle crucial dans le maintien des langues en vie. Ils permettent de créer du contenu audio comme des livres audio, des matériels éducatifs et des reportages, rendant l'accès et l'engagement avec la langue plus faciles. Cet engagement est essentiel pour sensibiliser et augmenter l'usage de ces langues moins courantes.
Aperçu de VoxHakka
VoxHakka a été créé pour combler le manque de ressources pour le Hakka taïwanais. Il supporte six dialectes différents de Hakka, notamment Sixian, Hailu, Dapu, Raoping, Zhaoan et Nansixian. Sixian et Hailu sont les dialectes les plus courants. Le système utilise une technologie avancée pour produire une parole qui sonne naturelle et précise tout en étant rapide en termes de temps de réponse.
Pour développer ce système, les chercheurs ont dû faire face à un accès limité à des données de parole Hakka de haute qualité. Pour surmonter ça, ils ont utilisé des outils pour rassembler des données sur internet, en se concentrant sur des sources fiables comme des sites gouvernementaux et des institutions éducatives. Ce processus de collecte de données a assuré qu'ils avaient une bonne quantité d'enregistrements de haute qualité à utiliser.
Collecte de données pour la parole Hakka
Créer un bon système TTS nécessite des enregistrements audio de haute qualité. Les développeurs de VoxHakka ont utilisé des techniques de web scraping pour collecter des fichiers audio et leurs formes écrites à partir de diverses ressources en ligne. Ils ont classé les données en deux types : les données bien transcrites, qui sont correctement écrites, et les données mal transcrites, qui peuvent avoir quelques erreurs. Les deux types ont été utiles pour construire un grand ensemble d'échantillons de parole Hakka.
Une fois les données collectées, les chercheurs ont utilisé un système de Reconnaissance Automatique de la Parole (ASR) pour améliorer la précision des transcriptions mal faites. Ce système aide à convertir les mots prononcés en texte écrit de manière précise. Après avoir nettoyé les données, ils ont veillé à ce que les enregistrements ne contiennent pas de silences inutiles et soient clairs à utiliser dans le système TTS.
Entraînement du modèle TTS
Avec les données nettoyées et organisées, la prochaine étape était d'entraîner le système VoxHakka. Ce processus implique plusieurs étapes pour s'assurer que le modèle comprend comment produire la parole Hakka.
Concaténation de la parole : Les chercheurs ont combiné de courts extraits audio en phrases plus longues pour aider le modèle à apprendre à créer une parole fluide. Cela lui a permis de reconnaître où faire des pauses naturellement en parlant.
Conversion graphème-phonème : Le Hakka taïwanais utilise des caractères chinois, donc il était important de développer un système qui pourrait convertir ces caractères en sons. Cette conversion garantit que le système TTS sait comment prononcer correctement divers mots.
Entraînement du modèle : Les développeurs ont utilisé un modèle spécifique appelé YourTTS, qui est léger et peut tourner sur des ordinateurs standards. Ce modèle leur a permis d'incorporer les caractéristiques uniques de la parole Hakka, y compris la façon dont différents locuteurs peuvent sonner.
Caractéristiques de VoxHakka
VoxHakka a plusieurs caractéristiques clés qui le rendent spécial :
Support des dialectes : Il peut produire de la parole dans les six principaux dialectes de Hakka taïwanais, capturant les sons et les tons uniques de chacun.
Données éthiquement sourcées : Les données utilisées pour entraîner VoxHakka proviennent de sources fiables qui ont été vérifiées pour leur précision.
Synthèse zéro-shot : Cette fonctionnalité signifie que le système peut créer de la parole pour de nouveaux locuteurs qu'il n'a jamais entendus auparavant. Il s'adapte à différentes voix et supporte même la synthèse de la parole dans d'autres langues.
Accès ouvert : VoxHakka est accessible à tous sans restrictions. Cela aide à promouvoir l'apprentissage des langues et les efforts de recherche.
Évaluation de VoxHakka
Pour tester à quel point VoxHakka fonctionne bien, les développeurs ont réalisé des tests d'écoute. Ils ont comparé la parole produite par VoxHakka à celle d'autres systèmes TTS existants pour Hakka. Ils ont demandé aux auditeurs d'évaluer trois aspects : à quel point la parole sonnait naturelle, à quel point la prononciation était précise et à quel point les tons étaient corrects.
Les résultats ont montré que VoxHakka performait mieux que ses concurrents, offrant une parole plus naturelle. Bien qu'il y ait encore une marge d'amélioration pour la précision de la prononciation, le système s'est avéré être un outil efficace pour produire la parole Hakka.
Défis dans le développement du TTS Hakka
Créer un système TTS pour le Hakka taïwanais a ses défis. Un problème majeur est la différence entre les dialectes, chacun ayant son propre ensemble de sons et de règles. La disponibilité limitée de données d'entraînement pour des dialectes autres que Sixian et Hailu rend plus difficile la création d'un système robuste qui fonctionne dans tous les dialectes.
Un autre défi est la complexité de la phonétique Hakka. Le Hakka a sept tons, et différents dialectes peuvent avoir des variations uniques de ces tons. Capturer ces nuances est vital pour produire une parole qui semble authentique pour les locuteurs natifs.
Directions futures
Les développeurs prévoient de continuer à améliorer VoxHakka. Un domaine clé est d'améliorer la précision de la prononciation, ce qui rendra le système encore plus accessible pour les locuteurs de la langue. Ils espèrent également explorer l'ajout d'expressions émotionnelles à la parole, ce qui pourrait la rendre plus engageante pour les auditeurs.
VoxHakka vise à devenir une ressource précieuse à des fins éducatives, aidant à enseigner le Hakka aux nouveaux apprenants et fournissant une plateforme pour préserver la langue. L'espoir est qu'avec un développement continu et une accessibilité accrue, plus de gens s'engageront avec le Hakka taïwanais et aideront à le maintenir en vie pour les générations futures.
Conclusion
VoxHakka représente un progrès significatif dans la technologie disponible pour les langues à faible ressource comme le Hakka taïwanais. En combinant des techniques avancées de collecte de données et une technologie sophistiquée de synthèse vocale, il offre un outil de haute qualité pour créer de la parole Hakka. Avec son accent sur la diversité dialectale et l'accessibilité ouverte, VoxHakka est prêt à devenir une ressource importante pour les locuteurs et les apprenants du Hakka taïwanais.
Titre: VoxHakka: A Dialectally Diverse Multi-speaker Text-to-Speech System for Taiwanese Hakka
Résumé: This paper introduces VoxHakka, a text-to-speech (TTS) system designed for Taiwanese Hakka, a critically under-resourced language spoken in Taiwan. Leveraging the YourTTS framework, VoxHakka achieves high naturalness and accuracy and low real-time factor in speech synthesis while supporting six distinct Hakka dialects. This is achieved by training the model with dialect-specific data, allowing for the generation of speaker-aware Hakka speech. To address the scarcity of publicly available Hakka speech corpora, we employed a cost-effective approach utilizing a web scraping pipeline coupled with automatic speech recognition (ASR)-based data cleaning techniques. This process ensured the acquisition of a high-quality, multi-speaker, multi-dialect dataset suitable for TTS training. Subjective listening tests conducted using comparative mean opinion scores (CMOS) demonstrate that VoxHakka significantly outperforms existing publicly available Hakka TTS systems in terms of pronunciation accuracy, tone correctness, and overall naturalness. This work represents a significant advancement in Hakka language technology and provides a valuable resource for language preservation and revitalization efforts.
Auteurs: Li-Wei Chen, Hung-Shin Lee, Chen-Chi Chang
Dernière mise à jour: 2024-10-01 00:00:00
Langue: English
Source URL: https://arxiv.org/abs/2409.01548
Source PDF: https://arxiv.org/pdf/2409.01548
Licence: https://creativecommons.org/licenses/by/4.0/
Changements: Ce résumé a été créé avec l'aide de l'IA et peut contenir des inexactitudes. Pour obtenir des informations précises, veuillez vous référer aux documents sources originaux dont les liens figurent ici.
Merci à arxiv pour l'utilisation de son interopérabilité en libre accès.