Avancées dans la reconnaissance vocale pour plusieurs intervenants
Un nouveau système améliore la reconnaissance vocale dans des situations avec plusieurs intervenants.
― 7 min lire
Table des matières
- Le défi des environnements multi-intervenants
- Pourquoi des systèmes de reconnaissance d'intervenant cible ?
- La nécessité d'une nouvelle approche
- Présentation d'un nouveau système ASR commun
- Comment ça marche ?
- Les avantages de cette approche
- Expérimentation et résultats
- Séréialisation des tokens
- Structure du réseau TS-NTS-ASR
- Résumé des résultats
- Conclusion
- Source originale
La technologie de reconnaissance vocale a fait de sacrés progrès, permettant aux machines de comprendre et de transcrire la parole humaine. Dans plein de situations de la vie réelle, plusieurs personnes parlent en même temps, ce qui complique la tâche des systèmes de reconnaissance vocale automatique (ASR) pour capter avec précision ce que chacun dit. Cet article se penche sur une nouvelle méthode conçue pour améliorer la reconnaissance vocale quand plusieurs intervenants sont impliqués, en se concentrant surtout sur la distinction entre un intervenant cible et les autres.
Le défi des environnements multi-intervenants
Dans les conversations quotidiennes, surtout dans des cadres comme les réunions ou les rassemblements sociaux, c'est courant que les gens se parlent en même temps. Les systèmes de reconnaissance vocale traditionnels sont généralement bons pour reconnaître la voix d'un seul intervenant, mais galèrent quand plusieurs voix se chevauchent. Ce discours qui se superpose pose problème, car le système doit déterminer qui dit quoi, tant pour la personne qu’il doit suivre (l’intervenant cible) que pour les autres participants à la conversation.
Pourquoi des systèmes de reconnaissance d'intervenant cible ?
Pour relever ce défi, des systèmes de reconnaissance vocale d'intervenant cible (TS-ASR) ont été développés. Ces systèmes peuvent transcrire uniquement la parole d'un intervenant spécifique, connu sous le nom d’intervenant cible. Cela se fait en fournissant au système des informations sur l'intervenant cible via un extrait audio, appelé discours d’inscription. L'idée est que le système puisse apprendre à isoler la voix de l'intervenant cible des autres.
Cependant, dans de nombreux cas, il est aussi utile de capturer ce que disent les intervenants non cibles. Par exemple, dans une réunion d'affaires, comprendre ce que dit le vendeur et ce que répondent les clients peut aider à avoir une vision plus claire de la conversation.
La nécessité d'une nouvelle approche
Les systèmes actuels ont leurs limites. Ils se concentrent souvent uniquement sur la voix de l'intervenant cible et ignorent les contributions des autres intervenants. Cela peut mener à un manque de contexte, ce qui complique la compréhension de la conversation dans son ensemble. Il y a également un défi technique à reconnaître les intervenants cibles et non cibles efficacement en utilisant le même modèle.
Présentation d'un nouveau système ASR commun
La nouvelle approche proposée combine la reconnaissance des intervenants cibles et non cibles dans un seul système, appelé ASR des intervenants cibles et non cibles (TS-NTS-ASR). Ce système vise à transcrire la parole de l'intervenant cible et des autres intervenants, tout en identifiant qui parle.
Comment ça marche ?
L'idée clé derrière le TS-NTS-ASR est d'utiliser une méthode qui reconnaît la parole qui se chevauche en abordant le problème de manière unifiée. Au lieu de séparer la parole de l’intervenant cible des autres, le système reconnaît toutes les voix ensemble dans un processus unique.
Utilisation du discours d'inscription
Pour y arriver, le système TS-NTS-ASR utilise le même discours d'inscription utilisé dans le TS-ASR traditionnel. Cela permet au système de comprendre les caractéristiques de la voix de l'intervenant cible. En incluant la voix des intervenants non cibles dans le processus de reconnaissance, le système peut améliorer sa capacité à identifier qui parle à un moment donné.
Un modèle unifié
Le système fonctionne en générant une séquence de texte transcrit pour tous les intervenants impliqués dans la conversation. Il garde une trace de si chaque partie de la parole provient de l’intervenant cible ou d’un intervenant non cible. Cela se fait de manière à combiner les deux types d’intervenants en une simple étape, ce qui rend plus facile de travailler avec les données et de comprendre le dialogue global.
Les avantages de cette approche
Utiliser le système TS-NTS-ASR offre plusieurs avantages :
Transcription complète : Le système peut transcrire à la fois la parole de l’intervenant cible et celle des intervenants non cibles, ce qui est crucial dans les conversations nécessitant du contexte.
Compréhension améliorée : En prenant en compte les contributions de tous les intervenants, le système permet une compréhension plus claire des interactions.
Performance optimisée : Il a montré de meilleures performances que les systèmes qui ignorent la parole des intervenants non cibles, conduisant à des Transcriptions plus précises.
Expérimentation et résultats
Pour tester l’efficacité du système TS-NTS-ASR, une série d’expériences a été réalisée. Ces expériences consistaient à mélanger des enregistrements audio de différents intervenants pour créer des scénarios de discours qui se chevauchent. Le système a été entraîné en utilisant ces enregistrements mélangés, apprenant à reconnaître plusieurs voix d'un coup.
Les résultats ont montré que le système TS-NTS-ASR réduisait de manière significative les erreurs de transcription par rapport aux systèmes traditionnels. En intégrant les informations des intervenants non cibles, il a amélioré la précision globale dans la reconnaissance des mots de l’intervenant cible.
Séréialisation des tokens
Un aspect important du système concerne la manière dont il organise la parole transcrite en une séquence. Il existe différentes façons de sérialiser le discours, y compris en commençant par les mots de l'intervenant cible ou en mélangeant les contributions des intervenants non cibles. Pour les expériences, trois principaux modèles de sérialisation ont été utilisés pour déterminer lequel offrait les meilleurs résultats.
Intervenant cible en premier : Les transcriptions commencent par les mots de l'intervenant cible, suivis des autres. Cette méthode permet une identification facile des contributions de l’intervenant cible.
Intervenant non cible en premier : Cette méthode commence par les intervenants non cibles, ce qui peut aider à comprendre le contexte global avant de se concentrer sur l’intervenant cible.
Premier arrivé, premier servi : Cette approche organise la parole en fonction de quand chaque personne a commencé à parler, peu importe qui elle est. Cela imite le flux naturel de la conversation et tend à donner les meilleures performances en reconnaissance de la parole.
Structure du réseau TS-NTS-ASR
La structure du système TS-NTS-ASR comprend divers composants conçus pour travailler ensemble efficacement. Le système inclut :
Encodeur d'intervenant : Transforme le discours d'inscription de l'intervenant cible en une représentation spécifique que le système peut utiliser pour la reconnaissance.
Encodeur de parole : Prend le discours mélangé et la représentation de l'intervenant et le traite pour générer des représentations cachées, aidant à la reconnaissance de ce que chaque intervenant dit.
Décodeur de texte : Ce composant calcule la probabilité de chaque token dans la transcription, permettant au système de générer la transcription la plus précise du discours.
Résumé des résultats
Les expériences ont montré que le système TS-NTS-ASR surpasse les systèmes TS-ASR traditionnels, permettant non seulement de reconnaître la parole d’un intervenant cible, mais aussi celle des autres. En utilisant des techniques avancées d’apprentissage automatique, le système améliore considérablement la précision de la reconnaissance vocale dans des scénarios où les voix se chevauchent.
Conclusion
Le développement de systèmes de reconnaissance vocale d’intervenant cible et non cible représente un pas en avant important dans la technologie de reconnaissance vocale. En reconnaissant les deux types d’intervenants de manière unifiée, ce système promet de fournir un meilleur contexte et une meilleure compréhension dans les conversations où plusieurs voix se chevauchent. Cette avancée peut avoir des applications précieuses dans divers domaines, y compris les réunions, les interactions de service client, et plus encore, rendant les conversations plus claires et plus faciles à suivre.
Titre: End-to-End Joint Target and Non-Target Speakers ASR
Résumé: This paper proposes a novel automatic speech recognition (ASR) system that can transcribe individual speaker's speech while identifying whether they are target or non-target speakers from multi-talker overlapped speech. Target-speaker ASR systems are a promising way to only transcribe a target speaker's speech by enrolling the target speaker's information. However, in conversational ASR applications, transcribing both the target speaker's speech and non-target speakers' ones is often required to understand interactive information. To naturally consider both target and non-target speakers in a single ASR model, our idea is to extend autoregressive modeling-based multi-talker ASR systems to utilize the enrollment speech of the target speaker. Our proposed ASR is performed by recursively generating both textual tokens and tokens that represent target or non-target speakers. Our experiments demonstrate the effectiveness of our proposed method.
Auteurs: Ryo Masumura, Naoki Makishima, Taiga Yamane, Yoshihiko Yamazaki, Saki Mizuno, Mana Ihori, Mihiro Uchida, Keita Suzuki, Hiroshi Sato, Tomohiro Tanaka, Akihiko Takashima, Satoshi Suzuki, Takafumi Moriya, Nobukatsu Hojo, Atsushi Ando
Dernière mise à jour: 2023-06-04 00:00:00
Langue: English
Source URL: https://arxiv.org/abs/2306.02273
Source PDF: https://arxiv.org/pdf/2306.02273
Licence: https://creativecommons.org/licenses/by/4.0/
Changements: Ce résumé a été créé avec l'aide de l'IA et peut contenir des inexactitudes. Pour obtenir des informations précises, veuillez vous référer aux documents sources originaux dont les liens figurent ici.
Merci à arxiv pour l'utilisation de son interopérabilité en libre accès.