Avancées dans la technologie de reconnaissance vocale des robots
De nouvelles méthodes améliorent la conversation humain-robot en rendant la parole plus claire.
― 6 min lire
Table des matières
Ces dernières années, les interactions entre les humains et les robots sont devenues plus courantes. Ces échanges peuvent rendre les conversations plus fluides lorsque le robot comprend ce que dit l'humain, même quand il parle en même temps. Mais c'est souvent compliqué par des perturbations, comme le bruit ambiant ou le chevauchement des discours, ce qui rend difficile la reconnaissance des paroles humaines. Un problème majeur qui se pose pendant ces interactions est de savoir comment les robots détectent et interprètent efficacement le discours humain, surtout quand ils parlent en même temps.
Le défi
Quand un robot, comme Pepper, parle et qu'un humain essaie de l'interrompre ou de parler par-dessus, les enregistrements peuvent se mélanger, rendant difficile la compréhension des mots de l'humain. Ce problème est connu sous le nom de Filtrage de Discours Égo de Robot (RESF). Une méthode courante pour améliorer la compréhension de la parole est la Soustraction spectrale, qui consiste à estimer et à retirer le bruit du signal audio. Cependant, cette méthode a ses défauts. En particulier, elle peut enlever trop de choses de l'audio, surtout dans certaines plages de fréquence, entraînant un discours déformé.
La soustraction spectrale et ses problèmes
La soustraction spectrale est une technique simple utilisée pour améliorer la parole. Elle fonctionne en retirant le bruit estimé du discours enregistré. Bien que cette méthode soit facile à utiliser, elle ne fonctionne souvent pas bien dans des environnements dynamiques avec des sons variés. Cela conduit à ce qu'on appelle la sur-soustraction, où le discours propre du robot peut faire en sorte que des parties du signal de parole humaine soient retirées incorrectement. Par conséquent, certains mots peuvent être mal entendus, notamment ceux qui utilisent des sons nasaux ou explosifs, rendant beaucoup plus difficile pour les systèmes de reconnaissance vocale d'interpréter avec précision ce qui a été dit.
Une nouvelle approche
Pour résoudre ce problème, des chercheurs ont développé une nouvelle méthode qui utilise une technologie avancée en matière d'amélioration de la parole, visant à améliorer la compréhension des interruptions humaines par les robots. Cette méthode utilise un type de réseau neuronal connu sous le nom de Réseau Adversarial Génératif (GAN), qui apprend à créer des signaux de parole de meilleure qualité à partir d'enregistrements déformés.
Une version spécifique de ce réseau, appelée Réseau Adversarial Génératif Métrique basé sur le Conformer à Deux Masques (CMGAN), a été proposée. Ce modèle aide à récupérer des parties de la parole qui ont été précédemment supprimées ou déformées en améliorant l'équilibre entre différentes fréquences sonores. Il tire parti des informations à haute fréquence pour compenser toute perte de fréquences plus basses.
Comment fonctionne le Two-Mask CMGAN
Le Two-Mask CMGAN fonctionne en deux étapes principales. D'abord, il génère un masque qui aide à récupérer les composants essentiels de basse fréquence qui ont été perdus lors de la suppression du bruit. C'est crucial car la fréquence fondamentale, qui joue un rôle important dans la façon dont la parole sonne, peut souvent être affectée par la sur-soustraction. Ensuite, le modèle proposé traite ces informations pour nettoyer davantage les signaux audio, améliorant ainsi la clarté globale de la parole détectée.
Traitement en temps réel
L'un des avancées significatives de cette approche est sa capacité à traiter l'audio presque en temps réel. Les modèles traditionnels nécessitent souvent des segments audio d'entrée plus longs, ce qui n'est pas pratique pour des interactions instantanées. En utilisant une méthode appelée Traitement incrémental (IP), le Two-Mask CMGAN peut fonctionner avec des buffers audio courts. Il collecte ces courts enregistrements et les combine, permettant un traitement efficace de l'audio tout en gardant la communication fluide.
Tester le nouveau système
Pour évaluer les performances de cette nouvelle méthode, les chercheurs ont créé deux ensembles de données audio. Le premier ensemble a été réalisé en mélangeant de la parole humaine claire avec des versions déformées obtenues par le filtrage de la parole du robot. Le deuxième ensemble a ajouté divers bruits de fond pour voir à quel point le système pouvait différencier la parole humaine de ces sons concurrents.
Les résultats étaient encourageants. Dans des scénarios avec des bruits d’aéroports ou d'environnements animés, le Two-Mask CMGAN a montré des améliorations significatives dans la reconnaissance de la parole. Dans les cas où le bruit ambiant était plus chaotique, comme plusieurs personnes parlant en même temps, le modèle a quand même réussi à réduire les malentendus et à améliorer les taux de reconnaissance.
L'impact du bruit de fond
Dans la vraie vie, les interactions avec les robots se déroulent souvent dans des environnements remplis de bruit, rendant encore plus difficile le bon fonctionnement des systèmes de reconnaissance de la parole. Les tests ont montré que le Two-Mask CMGAN pouvait améliorer la détection de la parole même en présence de sons de fond difficiles. Par exemple, quand le niveau de bruit était favorable, le système pouvait atteindre des taux de reconnaissance où la plupart des déclarations étaient comprises avec précision.
Conclusions et travaux futurs
En conclusion, le Two-Mask CMGAN représente un progrès prometteur dans la technologie d'amélioration de la parole pour les robots. En gérant efficacement la suppression du bruit et en reconnaissant la parole humaine, il vise à créer de meilleures expériences de communication entre humains et machines. La combinaison de cette technologie avec des méthodes de traitement en temps réel a un grand potentiel pour des applications concrètes, permettant aux robots d'interagir de manière plus naturelle sans interrompre le flux de la conversation.
Les développements futurs se concentreront sur la mise en œuvre de ces systèmes dans des robots comme Pepper et sur le test de leur efficacité dans différents scénarios d'interaction humain-robot. À mesure que la technologie progresse, on peut s'attendre à ce que les robots deviennent encore meilleurs pour comprendre et répondre à la parole humaine, rendant nos interactions avec les machines plus fluides et intuitives.
Titre: Spectral oversubtraction? An approach for speech enhancement after robot ego speech filtering in semi-real-time
Résumé: Spectral subtraction, widely used for its simplicity, has been employed to address the Robot Ego Speech Filtering (RESF) problem for detecting speech contents of human interruption from robot's single-channel microphone recordings when it is speaking. However, this approach suffers from oversubtraction in the fundamental frequency range (FFR), leading to degraded speech content recognition. To address this, we propose a Two-Mask Conformer-based Metric Generative Adversarial Network (CMGAN) to enhance the detected speech and improve recognition results. Our model compensates for oversubtracted FFR values with high-frequency information and long-term features and then de-noises the new spectrogram. In addition, we introduce an incremental processing method that allows semi-real-time audio processing with streaming input on a network trained on long fixed-length input. Evaluations of two datasets, including one with unseen noise, demonstrate significant improvements in recognition accuracy and the effectiveness of the proposed two-mask approach and incremental processing, enhancing the robustness of the proposed RESF pipeline in real-world HRI scenarios.
Auteurs: Yue Li, Koen V. Hindriks, Florian A. Kunneman
Dernière mise à jour: 2024-09-10 00:00:00
Langue: English
Source URL: https://arxiv.org/abs/2409.06274
Source PDF: https://arxiv.org/pdf/2409.06274
Licence: https://creativecommons.org/licenses/by/4.0/
Changements: Ce résumé a été créé avec l'aide de l'IA et peut contenir des inexactitudes. Pour obtenir des informations précises, veuillez vous référer aux documents sources originaux dont les liens figurent ici.
Merci à arxiv pour l'utilisation de son interopérabilité en libre accès.