Avancer la reconnaissance automatique de la parole pour l'arabe tunisien
Efforts pour améliorer les systèmes de reconnaissance vocale pour l'arabe tunisien et le code-switching.
― 7 min lire
Table des matières
- Le Besoin de Solutions ASR Locales
- Collecte de données
- Données Textuelles
- Données Audio
- Données Non Annotées
- Techniques pour Améliorer l'ASR
- Modèle de Base
- Code-Switching en Few-Shot
- Résultats et Performance
- Données sans Code-Switching
- Résultats sur le Code-Switching
- Évaluation Humaine
- Conclusion
- Source originale
- Liens de référence
Créer un bon système de Reconnaissance Automatique de la Parole (ASR) pour les dialectes, c'est pas simple. C'est surtout vrai pour l'arabe tunisien, où il n'y a pas beaucoup de données de qualité. La complexité des différentes façons de parler et de mélanger les langues complique encore plus les choses.
Cet article parle des efforts pour améliorer l'ASR pour l'arabe tunisien, en se concentrant surtout sur le mélange des langues, ou Le code-switching, qui est courant dans les conversations quotidiennes. D'abord, on a rassemblé des données audio et textuelles, dont certaines étaient annotées pour plus de clarté. Ensuite, on a exploré diverses techniques pour améliorer le système ASR. Enfin, on a vérifié la précision de nos transcriptions avec des retours humains pour s'assurer qu'elles étaient correctes, vu les défis uniques de l'orthographe en arabe tunisien.
Le Besoin de Solutions ASR Locales
Dernièrement, pas mal d'efforts ont été faits pour créer des systèmes ASR capables de comprendre plusieurs langues. Cependant, ces modèles ont souvent du mal avec des dialectes locaux comme l'arabe tunisien. La performance des modèles multilingues sur les données tunisiennes est insuffisante, ce qui montre un réel besoin de solutions adaptées qui reflètent les schémas de langage locaux.
Au cours des dix dernières années, des chercheurs en Tunisie se sont concentrés sur l'amélioration de l'ASR pour ce dialecte. Ils ont d'abord créé des règles pour écrire la langue. Cependant, malgré des efforts avec différentes méthodes, le manque de données de qualité a conduit à de mauvaises performances pour comprendre l'arabe tunisien.
Collecte de données
Pour surmonter ces défis, on a commencé par rassembler une gamme diversifiée de données audio et textuelles. Notre objectif était de créer un grand réservoir de ressources qui reflète la façon dont les gens parlent naturellement en Tunisie.
Données Textuelles
Trouver des données écrites de qualité pour l'arabe tunisien, c'est pas évident. Les recherches précédentes s'appuyaient souvent sur des sources limitées. Dans notre travail, on a trouvé du texte dans une grande base de données d'arabe tunisien, en plus d'extraits de différentes plateformes en ligne. On a soigneusement nettoyé les données en enlevant les symboles et les chiffres inutiles, ce qui a facilité le travail.
Données Audio
Pour rassembler des données parlées, on a développé un outil pour encourager les utilisateurs à s'enregistrer en lisant des phrases spécifiques. Ce processus nous a permis de collecter plus de 2 600 phrases uniques provenant de 89 participants. On a aussi construit un ensemble de données se concentrant spécifiquement sur le code-switching, où les locuteurs utilisent l'arabe tunisien mélangé avec le français et l'anglais. On a utilisé des émissions de radio et des podcasts comme sources pour ce dataset, garantissant une large gamme de sujets et de locuteurs.
Données Non Annotées
En plus des données annotées, on a collecté environ 317 heures d'audio provenant de la télévision nationale. Après avoir enlevé les segments avec de la musique et des discours qui se chevauchent, il nous restait 153 heures d'audio utilisable. Cet ensemble de données reflète comment les gens parlent dans la vraie vie, ce qui est essentiel pour former un système ASR efficace.
Techniques pour Améliorer l'ASR
On a mis en place plusieurs méthodes pour améliorer les modèles ASR, en se concentrant sur différentes approches de formation qui utilisent nos données collectées.
Modèle de Base
La première étape a été de développer un modèle qui ne travaille qu'avec des données de parole qui n'impliquent pas de code-switching. On a utilisé un modèle pré-entraîné comme base et l'a adapté pour reconnaître l'arabe tunisien. Ce modèle a été formé pour transformer l'audio en texte arabe.
Après avoir établi un modèle ASR de base, on a exploré l'apprentissage semi-supervisé. Ce processus a consisté à prendre des échantillons audio non annotés et à les transcrire en utilisant le modèle initial. Les transcriptions ont ensuite été ajoutées aux données de formation pour améliorer les performances du modèle.
Code-Switching en Few-Shot
Reconnaissant que la parole tunisienne inclut souvent un mélange de langues, on a adopté une approche de few-shot learning pour le code-switching. Cette méthode nous a permis de combiner des modèles séparés formés sur l'arabe tunisien, le français, et l'anglais. En utilisant ces modèles ensemble, on a cherché à améliorer la capacité du système à gérer des conversations multilingues.
Résultats et Performance
Données sans Code-Switching
On a testé les modèles sur des données qui n'impliquaient pas de code-switching. Les résultats variaient selon le dataset, montrant des différences de performance. Par exemple, un dataset axé sur l'achat de billets de train, qui contenait moins de mots et des transcriptions plus faciles, a donné lieu à des taux d'erreur plus bas. Un autre dataset, comprenant des conversations spontanées, s'est avéré plus difficile.
Ajouter de l'auto-formation a amélioré les performances du modèle sur tous les datasets. Les meilleurs résultats ont été obtenus en utilisant des modèles de langue formés sur des données textuelles supplémentaires, ce qui a conduit à des améliorations significatives de la précision des transcriptions.
Résultats sur le Code-Switching
En évaluant les performances des modèles sur des données avec code-switching, on a constaté que l'utilisation de modèles de langue correctement calibrés faisait une grande différence. Améliorer les données utilisées pour la formation linguistique a conduit à de meilleures performances dans l'ensemble. Notre meilleur modèle a atteint une performance de base solide sur la tâche difficile de comprendre des conversations spontanées comprenant du code-switching entre les trois langues.
Évaluation Humaine
Étant donné la nature unique de l'arabe tunisien, on a réalisé des évaluations humaines pour vérifier la qualité des transcriptions. Un groupe de locuteurs maîtrisant les trois langues a examiné les résultats et a fourni des retours. Leurs évaluations ont mis en évidence certaines incohérences dues au manque de règles orthographiques standard dans le dialecte.
Malgré ces problèmes, les évaluateurs humains ont généralement accepté de nombreuses transcriptions comme correctes, montrant que même si les évaluations automatisées peuvent indiquer des erreurs, un locuteur fluent peut toujours comprendre le sens voulu.
Conclusion
Ce travail a établi une base pour l'étude de l'arabe tunisien en code-switching dans les systèmes ASR. En collectant une gamme diversifiée de données audio et textuelles et en appliquant diverses techniques de formation, on a créé une base prometteuse dans un domaine de recherche difficile.
Les ressources développées à travers ce projet sont destinées à bénéficier à d'autres travaillant dans le domaine de la reconnaissance vocale, surtout pour les dialectes et les scénarios de langues mélangées. On espère que ce travail inspirera d'autres recherches et innovations dans l'ASR pour des langues et dialectes sous-représentés dans les systèmes actuels.
Titre: Leveraging Data Collection and Unsupervised Learning for Code-switched Tunisian Arabic Automatic Speech Recognition
Résumé: Crafting an effective Automatic Speech Recognition (ASR) solution for dialects demands innovative approaches that not only address the data scarcity issue but also navigate the intricacies of linguistic diversity. In this paper, we address the aforementioned ASR challenge, focusing on the Tunisian dialect. First, textual and audio data is collected and in some cases annotated. Second, we explore self-supervision, semi-supervision and few-shot code-switching approaches to push the state-of-the-art on different Tunisian test sets; covering different acoustic, linguistic and prosodic conditions. Finally, and given the absence of conventional spelling, we produce a human evaluation of our transcripts to avoid the noise coming from spelling inadequacies in our testing references. Our models, allowing to transcribe audio samples in a linguistic mix involving Tunisian Arabic, English and French, and all the data used during training and testing are released for public use and further improvements.
Auteurs: Ahmed Amine Ben Abdallah, Ata Kabboudi, Amir Kanoun, Salah Zaiem
Dernière mise à jour: 2023-09-25 00:00:00
Langue: English
Source URL: https://arxiv.org/abs/2309.11327
Source PDF: https://arxiv.org/pdf/2309.11327
Licence: https://creativecommons.org/licenses/by/4.0/
Changements: Ce résumé a été créé avec l'aide de l'IA et peut contenir des inexactitudes. Pour obtenir des informations précises, veuillez vous référer aux documents sources originaux dont les liens figurent ici.
Merci à arxiv pour l'utilisation de son interopérabilité en libre accès.