Simple Science

La science de pointe expliquée simplement

# Génie électrique et science des systèmes# Calcul et langage# Apprentissage automatique# Son# Traitement de l'audio et de la parole

Améliorer la synthèse vocale pour les langues indiennes

Une méthode pour améliorer les systèmes TTS pour mieux prononcer les mots OOV en Inde.

― 7 min lire


Réinventer les systèmesRéinventer les systèmesTTS indiensdifférentes langues.clarté de la synthèse vocale pourUne méthode innovante améliore la
Table des matières

Les systèmes de synthèse vocale (TTS) sont super importants en Inde, où plein de langues sont parlées. Ces systèmes aident de différentes manières, comme fournir des infos aux agriculteurs sur la météo, partager des mises à jour sur les programmes gouvernementaux et aider les personnes malvoyantes. Cependant, un des gros défis pour les systèmes TTS en hindi et en tamoul, c'est le manque de données d'entraînement suffisantes.

La plupart des ensembles de données disponibles pour ces langues n'ont que 10 à 20 heures d'Enregistrements. Cette quantité limitée rend difficile la reconnaissance de nombreux mots, surtout ceux qui ne sont pas dans les données d'entraînement. En pratique, le manque de support pour certains mots devient évident. Les utilisateurs mélangent souvent l'hindi ou le tamoul avec l'anglais, ce qui crée plein de mots que le système ne peut pas prononcer, appelés mots hors vocabulaire (OOV).

Pour mieux illustrer ce problème, un nouveau benchmark a été créé pour identifier ces mots OOV dans des applications réelles. Les tests ont montré que les systèmes TTS en hindi et en tamoul avaient du mal avec ces mots, ce qui a entraîné une mauvaise clarté lors de la lecture à voix haute. Pour remédier à ça, une méthode est proposée pour rassembler plus de données d'entraînement avec un minimum d'effort et de coût.

Nouvelle Méthode de Collecte de Données

Au lieu d'embaucher des artistes vocaux professionnels, la nouvelle méthode utilise des Bénévoles pour enregistrer des mots OOV. Ce système est non seulement moins cher mais permet aussi d'obtenir des échantillons de voix plus diversifiés. L'objectif est de collecter des mots contenant des combinaisons de caractères que les données d'entraînement originales n'ont pas couvertes. On espère que cette stratégie aidera les systèmes TTS à mieux gérer les mots OOV, sans nuire à la qualité de la parole générée.

Le processus commence par identifier les mots OOV importants que les utilisateurs rencontrent typiquement dans des situations pratiques. Ces mots ont été regroupés en catégories comme les abréviations, les noms de marques, les noms d'entreprises, et d'autres domaines pertinents. Une fois les mots OOV identifiés, des bénévoles de la communauté ont participé à l'enregistrement de ces mots dans un cadre contrôlé.

Collecte de Données des Bénévoles

Pour trouver des bénévoles, il a fallu faire passer le mot par les canaux locaux. Les participants intéressés ont été informés de l'utilisation de leurs données vocales et de la compensation qu'ils recevraient. Un consentement éclairé a été obtenu pour s'assurer que les bénévoles comprenaient bien à quoi ils s'engageaient, et la confidentialité a été strictement respectée.

L'enregistrement s'est fait dans des configurations acoustiques simples pour économiser des coûts. Les bénévoles ont utilisé un microphone clair avec des filtres pour capturer leur voix avec précision. Pour s'assurer que chaque mot était prononcé correctement, chaque bénévole a pratiqué avec les scripts d'enregistrement avant la session réelle. Un expert a supervisé les enregistrements en temps réel, s’assurant que les erreurs étaient corrigées immédiatement.

Analyse des Améliorations de Performance

Après la collecte des données, l'étape suivante a été de former des modèles TTS avec les nouveaux enregistrements. Deux modèles TTS réputés ont été utilisés à cet effet. Les efforts se sont concentrés sur la capacité de ces modèles à reconnaître et prononcer aussi bien les mots OOV que ceux dans le vocabulaire (IV). Les données OOV enregistrées ont été intégrées dans les bases de données existantes pour améliorer la performance.

La performance des modèles TTS modifiés a été mesurée à travers des tests d'intelligibilité. Dans ces tests, des auditeurs ont évalué à quel point les modèles prononçaient clairement les mots en déterminant s'ils pouvaient comprendre les mots prononcés. Les résultats ont montré que les modèles formés avec les enregistrements supplémentaires avaient moins d'erreurs pour les mots OOV et IV.

Résultats Clés et Impact

Les résultats ont démontré que la nouvelle méthode de collecte de données avait significativement amélioré la capacité des systèmes TTS à prononcer des mots OOV. L'efficacité de cette approche à faible coût était claire, avec des taux d'erreur pour les mots OOV qui ont chuté de façon spectaculaire. Les améliorations n'ont pas non plus eu d'impact négatif sur la clarté ou la qualité de la sortie vocale produite par les systèmes.

De plus, il était évident que l'utilisation de voix provenant de différents bénévoles aidait aussi les systèmes TTS à mieux généraliser. Cela signifie que même si les voix originales utilisées pour l'entraînement n'étaient pas celles des nouveaux enregistrements, les systèmes parvenaient quand même à bien performer avec leurs sorties générées.

Faire Face aux Défis Communs

Durant les phases de test et d'évaluation, certains problèmes de Prononciation communs ont été identifiés. Beaucoup de mots OOV contiennent des combinaisons de voyelles difficiles qui ne se trouvent pas souvent dans les données d'entraînement existantes. C'est particulièrement vrai pour les mots qui mélangent les langues, ce qui entraîne souvent de la confusion lors de la synthèse vocale.

En enregistrant des mots et des combinaisons plus diversifiés, les nouveaux enregistrements ont aidé à surmonter certains de ces défis de prononciation. Les chercheurs ont découvert que même les enregistrements d'un seul genre pouvaient améliorer la performance à travers différents types de voix. Les voix masculines et féminines ont montré des améliorations lorsqu'elles étaient entraînées avec des enregistrements OOV provenant d'un seul genre.

Conclusion

Ce projet met en avant une méthode réussie pour améliorer les systèmes TTS pour les langues indiennes. En utilisant des bénévoles et en se concentrant sur la collecte de mots OOV, la performance de ces systèmes peut être considérablement améliorée. Cette approche contribue non seulement à une meilleure technologie mais aussi à promouvoir l'inclusivité en s'assurant que des voix diverses sont représentées dans le paysage TTS.

Les efforts investis dans la création de ce système peuvent mener à des applications plus larges de la technologie TTS, bénéficiant à de nombreux utilisateurs, des agriculteurs aux malvoyants. Ce travail montre comment des stratégies économiques peuvent répondre aux défis technologiques, en particulier dans les régions avec beaucoup de langues et de dialectes.

En comblant le fossé entre le vocabulaire disponible et l'utilisation réelle dans la vie quotidienne, ces avancées offrent une voie vers des outils de communication plus efficaces. Avec des efforts continus et l'implication de la communauté, l'avenir des systèmes TTS en Inde semble prometteur. L'engagement à améliorer l'accessibilité et la compréhension à travers la technologie est essentiel, car il soutient la richesse linguistique et la diversité culturelle dans le pays.

Source originale

Titre: Enhancing Out-of-Vocabulary Performance of Indian TTS Systems for Practical Applications through Low-Effort Data Strategies

Résumé: Publicly available TTS datasets for low-resource languages like Hindi and Tamil typically contain 10-20 hours of data, leading to poor vocabulary coverage. This limitation becomes evident in downstream applications where domain-specific vocabulary coupled with frequent code-mixing with English, results in many OOV words. To highlight this problem, we create a benchmark containing OOV words from several real-world applications. Indeed, state-of-the-art Hindi and Tamil TTS systems perform poorly on this OOV benchmark, as indicated by intelligibility tests. To improve the model's OOV performance, we propose a low-effort and economically viable strategy to obtain more training data. Specifically, we propose using volunteers as opposed to high quality voice artists to record words containing character bigrams unseen in the training data. We show that using such inexpensive data, the model's performance improves on OOV words, while not affecting voice quality and in-domain performance.

Auteurs: Srija Anand, Praveen Srinivasa Varadhan, Ashwin Sankar, Giri Raju, Mitesh M. Khapra

Dernière mise à jour: 2024-07-18 00:00:00

Langue: English

Source URL: https://arxiv.org/abs/2407.13435

Source PDF: https://arxiv.org/pdf/2407.13435

Licence: https://creativecommons.org/licenses/by/4.0/

Changements: Ce résumé a été créé avec l'aide de l'IA et peut contenir des inexactitudes. Pour obtenir des informations précises, veuillez vous référer aux documents sources originaux dont les liens figurent ici.

Merci à arxiv pour l'utilisation de son interopérabilité en libre accès.

Plus d'auteurs

Articles similaires