Une nouvelle approche pour repérer des mots-clés
Présentation d'une méthode flexible pour reconnaître les mots-clés dans la parole à travers les langues.
― 7 min lire
Table des matières
La détection de mots-clés (KWS) est super importante pour les systèmes qui reconnaissent la parole. Ça consiste à repérer des mots ou des phrases spécifiques dans un flux audio continu. C'est essentiel pour plein d'applis, comme les services de transcription automatisée et les assistants vocaux.
Malgré les progrès tech, la KWS a encore ses défis. Un gros problème, c’est l’adaptabilité et la personnalisation. En général, les systèmes de détection de mots-clés ne reconnaissent qu’une liste prédéfinie de mots-clés, ce qui nécessite beaucoup de données étiquetées pour chaque mot-clé, limitant leur utilité.
Parfois, adapter un modèle pour reconnaître de nouveaux mots-clés demande de le réentraîner, ce qui est long et coûteux en ressources. Récemment, des méthodes comme l'apprentissage avec peu d'exemples ont essayé d'offrir une manière plus flexible de gérer la KWS, mais ça bloque encore pour bien fonctionner avec des mots-clés nouveaux ou hors vocabulaire. C’est particulièrement difficile dans les langues à faibles ressources où trouver suffisamment de données peut être un vrai casse-tête.
Un des objectifs en KWS, c'est de créer un système qui reconnaisse des mots-clés définis par l'utilisateur dans plusieurs langues sans nécessiter d'exemples supplémentaires ou d'ajustements. Certaines méthodes récentes ont bossé sur des systèmes de détection de mots-clés à vocabulaire ouvert, capables de reconnaître des mots clés non vus pendant l'entraînement. Ces systèmes utilisent généralement un Encodeur de texte pour lier les infos audio et texte dans un espace commun. Mais des défis subsistent.
Un défi, c'est que l'utilisation de deux encodeurs séparés pour l'audio et le texte peut entraîner un désalignement entre les deux. Une autre limite, c'est que certaines de ces méthodes reposent sur des modèles phonémiques, qui ne fonctionnent pas bien pour les langues moins ressources. Enfin, la plupart de ces approches ont surtout été évaluées sur des données en anglais, laissant des questions sur leur efficacité dans d'autres langues et dialectes.
Méthode Proposée pour la Détection de Mots-Clés
Pour résoudre ces problèmes, on propose une nouvelle méthode de détection de mots-clés qui utilise la normalisation d’instance adaptative. Au lieu de tenter d'aligner audio et texte dans un espace commun, notre méthode utilise un encodeur basé sur les caractères qui transforme le mot-clé d'entrée en paramètres de normalisation. Ces paramètres aident à traiter l’audio grâce à des modules spécifiquement conçus pour l’adaptation de mots-clés.
Le module adaptatif remplace les couches de normalisation standards par des couches de normalisation d’instance adaptative. Ces couches se sont révélées efficaces dans diverses tâches, comme l'édition d'images. Pour réduire les détections incorrectes de mots-clés sonnant de manière similaire pendant l'entraînement, on a développé une nouvelle technique pour trouver des exemples négatifs difficiles.
Contrairement aux méthodes précédentes qui entraînaient des modèles de détection de mots-clés sur des échantillons audio segmentés contenant uniquement le mot-clé cible, notre modèle s'entraîne sur des phrases complètes. Ça veut dire qu'on n’a pas à se préoccuper de l’alignement des mots-clés avec des segments audio, ce qui nous permet d'utiliser beaucoup plus de données d'entraînement.
Composants du Modèle de Détection de Mots-Clés
Le modèle est composé de deux parties principales : un encodeur de texte et un classifyeur audio. Le classificateur audio inclut un Encodeur audio et des modules d’adaptation aux mots-clés. Pour notre encodeur audio, on utilise un modèle pré-entraîné et on le laisse inchangé pendant nos expériences. Quand on lui fait entrer un audio, il génère une représentation audio qui est ensuite traitée par les modules d’adaptation aux mots-clés. Chaque module traite l'audio en utilisant les paramètres de normalisation liés au mot-clé spécifique.
On a aussi un encodeur de texte léger qui associe le mot-clé cible à des paramètres de normalisation. Cette configuration permet au modèle de partager des informations entre différents mots-clés tout en étant capable de s’adapter efficacement à des mots-clés spécifiques.
Échantillonnage négatif
Technique d'Créer des exemples négatifs divers est crucial pour un entraînement efficace. On utilise une approche d’échantillonnage négatif qui génère des exemples négatifs difficiles pour chaque lot d'entraînement. Les données d'entraînement se composent d'énoncés de parole et de leurs transcriptions, ainsi qu'un ensemble de mots-clés.
Par exemple, pour créer un exemple d'entraînement positif, on choisit un mot-clé au hasard et on le couple avec l'audio correspondant. Pour créer des exemples négatifs, on peut utiliser plusieurs stratégies :
Échantillonnage Négatif Aléatoire : On sélectionne un mot-clé au hasard. Cependant, cette méthode n'est pas toujours efficace car les mots-clés sélectionnés aléatoirement peuvent sembler très différents du mot-clé cible.
Substitution de Caractères : On change un ou plusieurs caractères dans le mot-clé positif pour en créer un nouveau. Ça peut impliquer de choisir des caractères au hasard ou d’utiliser une carte de caractères sonnant similaires.
Concaténation de Mots-Clés : On combine un mot-clé positif avec un autre mot-clé aléatoire pour créer un exemple négatif.
Échantillonnage de Mots-Clés Proches : On trouve un mot-clé acoustiquement similaire au mot-clé positif en regardant leurs représentations textuelles.
Ces méthodes aident à entraîner le modèle à mieux distinguer les mots-clés qui sonnent de manière similaire.
Évaluation de Performance
On a testé notre méthode sur divers ensembles de données pour évaluer son efficacité. Un des ensembles primaires qu'on a utilisés est VoxPopuli, qui contient un grand nombre d'échantillons de parole multilingues. On a aussi utilisé LibriPhrase, une référence conçue pour la détection de mots-clés, qui a des divisions difficiles et faciles.
Quand on a comparé notre méthode avec plusieurs autres, on a toujours constaté que notre approche surpassait les modèles existants. Par exemple, dans l'ensemble de données VoxPopuli, notre modèle a donné de meilleurs résultats que les méthodes de référence, montrant son efficacité dans plusieurs langues.
De plus, on a évalué la capacité de notre modèle à se généraliser à de nouvelles langues à faibles ressources. On l’a testé sur un sous-ensemble de langues d'un autre ensemble de données sans aucun ajustement. Les résultats ont confirmé que notre modèle pouvait toujours fournir de bonnes performances même en travaillant avec des langues qu'il n'avait pas rencontrées pendant l'entraînement.
Étude d'Ablation
On a fait une analyse supplémentaire pour voir comment différentes stratégies d'échantillonnage négatif affectaient la performance de notre modèle. Les résultats ont montré que nos techniques d'échantillonnage négatif proposées contribuaient de manière significative à l'efficacité du modèle de détection de mots-clés.
Conclusion
En résumé, on a présenté une nouvelle approche de détection de mots-clés qui utilise la Normalisation d'instance adaptative. Notre méthode permet au modèle de s'ajuster à de nouveaux mots-clés pendant son fonctionnement, ce qui augmente sa polyvalence. En introduisant des stratégies innovantes pour générer des exemples négatifs difficiles, on a atteint des résultats de premier ordre dans des environnements à vocabulaire ouvert, même à travers plusieurs langues.
De plus, notre méthode a montré de fortes capacités d'adaptation aux langues et ensembles de données non vus. Ces avancées améliorent non seulement les méthodes de détection de mots-clés actuelles, mais ouvrent aussi des pistes pour des recherches futures dans ce domaine important de la reconnaissance de la parole.
Titre: Open-vocabulary Keyword-spotting with Adaptive Instance Normalization
Résumé: Open vocabulary keyword spotting is a crucial and challenging task in automatic speech recognition (ASR) that focuses on detecting user-defined keywords within a spoken utterance. Keyword spotting methods commonly map the audio utterance and keyword into a joint embedding space to obtain some affinity score. In this work, we propose AdaKWS, a novel method for keyword spotting in which a text encoder is trained to output keyword-conditioned normalization parameters. These parameters are used to process the auditory input. We provide an extensive evaluation using challenging and diverse multi-lingual benchmarks and show significant improvements over recent keyword spotting and ASR baselines. Furthermore, we study the effectiveness of our approach on low-resource languages that were unseen during the training. The results demonstrate a substantial performance improvement compared to baseline methods.
Auteurs: Aviv Navon, Aviv Shamsian, Neta Glazer, Gill Hetz, Joseph Keshet
Dernière mise à jour: 2023-09-13 00:00:00
Langue: English
Source URL: https://arxiv.org/abs/2309.08561
Source PDF: https://arxiv.org/pdf/2309.08561
Licence: https://creativecommons.org/licenses/by/4.0/
Changements: Ce résumé a été créé avec l'aide de l'IA et peut contenir des inexactitudes. Pour obtenir des informations précises, veuillez vous référer aux documents sources originaux dont les liens figurent ici.
Merci à arxiv pour l'utilisation de son interopérabilité en libre accès.