Simple Science

La science de pointe expliquée simplement

# Génie électrique et science des systèmes # Traitement de l'audio et de la parole # Calcul et langage # Apprentissage automatique # Son

Construire de meilleurs ensembles de données de discours pour les langues sous-représentées

Un projet qui développe des jeux de données de parole et de texte pour des langues avec peu de ressources.

Nikola Ljubešić, Peter Rupnik, Danijel Koržinek

― 6 min lire


Avancer les jeux de Avancer les jeux de données de parole pour les langues sous-représentées. de texte fiables pour les langues Créer des jeux de données de parole et
Table des matières

La collection ParlaSpeech est un ensemble de Jeux de données de Discours et de textes créés à partir d'Enregistrements de réunions parlementaires. Elle vise à aider les langues qui ont moins de ressources disponibles pour la technologie vocale. L'objectif est de fournir un meilleur accès aux données orales et écrites pour la recherche et la technologie dans ces langues.

Besoin de jeux de données de discours et de texte

Ces dernières années, il y a eu de grandes améliorations dans la façon dont les machines traitent la parole et le langage. Ces améliorations viennent souvent de méthodes auto-supervisées utilisant beaucoup de données brutes. Cependant, avoir des connexions claires entre les mots prononcés et le texte écrit reste très important. Beaucoup de langues n'ont pas assez de données de ce type, ce qui rend difficile la création de bonnes technologies de traitement de la parole.

Pour remédier à ce problème, nous nous concentrons sur l'utilisation de Transcriptions des débats parlementaires et de leurs enregistrements. Les archives parlementaires sont une bonne source de données fiables car elles doivent souvent être accessibles au public. Cela signifie que les enregistrements des débats sont généralement accessibles, ce qui aide à éviter les problèmes de confidentialité.

Le défi

Différentes langues ont des niveaux variés de jeux de données de discours et de texte disponibles. Certaines langues ont beaucoup de matériel, tandis que d'autres en ont très peu, voire pas du tout. Le polonais, par exemple, a environ 180 heures de matériel, ce qui n'est pas énorme pour une langue parlée par plus de 40 millions de personnes. Le croate, qui a 4 millions de locuteurs, n'avait aucun jeu de données disponible publiquement avant ce projet.

Le principal défi auquel nous avons été confrontés en alignant les transcriptions avec les enregistrements audio était qu'il n'y avait pas de cohérence globale entre eux. Parfois, des parties des enregistrements n'étaient pas transcrites, ou les transcriptions ne correspondaient pas à ce qui était réellement dit. Il y avait aussi des problèmes de dates des séances qui ne correspondaient pas et l'ordre des textes ne correspondait pas à l'ordre des événements dans les enregistrements.

Travaux antérieurs

Utiliser des données parlementaires pour créer des jeux de données de discours n'est pas une nouvelle idée. Des projets réussis ont été créés pour des langues comme l'allemand suisse, l'islandais, le danois et le finnois. Cependant, ce projet est unique car il vise à créer une approche évolutive qui peut être utilisée pour de nombreuses langues. Le projet ParlaMint, qui collecte des transcriptions parlementaires, est une partie cruciale de cet effort.

Aperçu du processus

Notre approche pour aligner les données de discours avec le texte implique plusieurs étapes. D'abord, nous collectons des enregistrements audio et des transcriptions pour les langues d'intérêt. Nous devons associer chaque fichier audio à un morceau de texte approprié couvrant son contenu. Cela implique des méthodes statistiques pour nous assurer que nous associons les bons enregistrements aux bonnes transcriptions.

Traitement audio

Pour traiter les enregistrements audio, nous devons identifier les parties contenant de la parole. Nous utilisons une technique appelée détection d'activité vocale (VAD) pour trouver ces segments. Nous effectuons également des calculs pour analyser le discours plus efficacement. Les résultats de ces calculs sont mis en cache pour une réutilisation dans les étapes suivantes.

Prétraitement du texte

En même temps, nous préparons le texte pour le rapprochement. Cela implique de nettoyer le texte en enlevant la ponctuation et les majuscules. Cela garantit que le texte correspond au format de ce qui est généralement produit par les systèmes de reconnaissance vocale. Comme les langues avec lesquelles nous travaillons n'ont pas d'outils de haute qualité facilement disponibles, nous développons nos propres solutions pour préparer le texte.

Modélisation linguistique et reconnaissance vocale

Une fois le texte prêt, nous créons un modèle linguistique qui aide le système de reconnaissance vocale à comprendre le contexte des mots. Ce modèle est construit à partir de toutes les transcriptions disponibles, ce qui améliore sa précision.

Rapprochement du texte et de l'audio

Après avoir traité à la fois l'audio et le texte, nous essayons de les rapprocher. Nous cherchons des similitudes entre les transcriptions automatiques générées par le système de reconnaissance vocale et les transcriptions de référence. Nous utilisons diverses techniques pour identifier les meilleures correspondances et résoudre les lacunes qui pourraient rester.

Alignement final

Une fois que nous avons identifié les correspondances, nous devons créer une sortie structurée qui inclut des horodatages pour chaque mot prononcé dans l'audio. Cela nous permet d'aligner étroitement la parole avec son texte correspondant et d'assurer un ensemble de données cohérent.

Filtrage et segmentation des données

Pour rendre nos ensembles de données utiles pour différentes applications, nous passons par des étapes de filtrage et de segmentation supplémentaires. Nous supprimons toutes les transcriptions qui n'ont pas de segment audio correspondant ou celles qui ont des taux d'erreur élevés dans leur alignement. Chaque segment est ensuite divisé en parties plus petites, ce qui facilite le travail des chercheurs et des développeurs.

Publications des jeux de données

Nous fournissons nos jeux de données dans trois formats différents pour répondre à divers besoins :

  1. Entrées du dépôt FAIR : Ces entrées contiennent des informations complètes et peuvent être accessibles pour une utilisation à long terme.

  2. Jeux de données HuggingFace : Ce format est conçu pour les utilisateurs qui souhaitent intégrer facilement ces données dans des projets de technologie vocale.

  3. Corpora parlés via Concordancer : Cette option permet aux linguistes d'effectuer des recherches détaillées au sein des transcriptions et d'écouter les segments audio correspondants.

Ces publications aideront les chercheurs et les développeurs à utiliser les données de manière créative, y compris pour entraîner des modèles de reconnaissance vocale automatique et mener des études linguistiques.

Conclusion

Notre travail démontre une approche pratique pour créer des ensembles de données de discours et de texte alignés qui peuvent bénéficier aux langues avec des ressources limitées. Avec plus de 5 000 heures de données de discours et de texte alignées disponibles pour trois langues slaves, ce projet pose les bases pour de futures expansions. Alors que nous continuons à développer nos méthodes, nous espérons ajouter encore plus de langues et améliorer davantage nos contributions à la communauté de recherche.

Les ensembles de données créés grâce à ce projet aideront non seulement au développement de la technologie vocale, mais fourniront également des ressources précieuses pour la recherche linguistique. Les défis auxquels nous avons été confrontés soulignent les complexités impliquées, mais les bénéfices potentiels de la collection ParlaSpeech sont énormes.

Source originale

Titre: The ParlaSpeech Collection of Automatically Generated Speech and Text Datasets from Parliamentary Proceedings

Résumé: Recent significant improvements in speech and language technologies come both from self-supervised approaches over raw language data as well as various types of explicit supervision. To ensure high-quality processing of spoken data, the most useful type of explicit supervision is still the alignment between the speech signal and its corresponding text transcript, which is a data type that is not available for many languages. In this paper, we present our approach to building large and open speech-and-text-aligned datasets of less-resourced languages based on transcripts of parliamentary proceedings and their recordings. Our starting point are the ParlaMint comparable corpora of transcripts of parliamentary proceedings of 26 national European parliaments. In the pilot run on expanding the ParlaMint corpora with aligned publicly available recordings, we focus on three Slavic languages, namely Croatian, Polish, and Serbian. The main challenge of our approach is the lack of any global alignment between the ParlaMint texts and the available recordings, as well as the sometimes varying data order in each of the modalities, which requires a novel approach in aligning long sequences of text and audio in a large search space. The results of this pilot run are three high-quality datasets that span more than 5,000 hours of speech and accompanying text transcripts. Although these datasets already make a huge difference in the availability of spoken and textual data for the three languages, we want to emphasize the potential of the presented approach in building similar datasets for many more languages.

Auteurs: Nikola Ljubešić, Peter Rupnik, Danijel Koržinek

Dernière mise à jour: 2024-11-26 00:00:00

Langue: English

Source URL: https://arxiv.org/abs/2409.15397

Source PDF: https://arxiv.org/pdf/2409.15397

Licence: https://creativecommons.org/licenses/by/4.0/

Changements: Ce résumé a été créé avec l'aide de l'IA et peut contenir des inexactitudes. Pour obtenir des informations précises, veuillez vous référer aux documents sources originaux dont les liens figurent ici.

Merci à arxiv pour l'utilisation de son interopérabilité en libre accès.

Plus d'auteurs

Articles similaires

Calcul et langage Améliorer la reconnaissance vocale grâce à des techniques phonétiques

De nouvelles méthodes améliorent la précision des systèmes de reconnaissance vocale grâce à une compréhension phonétique.

Leonid Velikovich, Christopher Li, Diamantino Caseiro

― 7 min lire