Simple Science

La science de pointe expliquée simplement

# Génie électrique et science des systèmes# Son# Intelligence artificielle# Traitement de l'audio et de la parole

Un nouvel appareil améliore les conversations dans des environnements bruyants

Un appareil aide à se concentrer sur des voix spécifiques dans des endroits bondés.

― 8 min lire


Concentre-toi sur lesConcentre-toi sur lesvoix dans le bruit.voix malgré les distractions.L'appareil améliore la clarté de la
Table des matières

Dans notre vie quotidienne, on se retrouve souvent dans des environnements bruyants. Que ce soit dans des rues bondées, des cafés animés ou des soirées bruyantes, se concentrer sur une seule conversation peut être difficile. Cependant, notre cerveau est assez doué pour se concentrer sur une voix spécifique si on la connaît à l'avance. C'est là qu'intervient l'idée d'un dispositif d'écoute spécial. Ce dispositif peut nous aider à entendre une personne spécifique dans une foule tout en filtrant tout le bruit de fond.

Le défi

Actuellement, beaucoup de casques à réduction de bruit peuvent éliminer une grande partie des sons environnants, mais ils ne peuvent pas extraire la voix d'une seule personne quand plusieurs personnes parlent. Une méthode courante pour aider les machines à identifier une voix est de fournir un exemple clair de la parole de cette personne dans un environnement calme. Cependant, dans le monde réel, on a rarement la chance de faire ça. Le défi réside dans la création d'un système qui peut fonctionner dans des conditions bruyantes sans avoir besoin d'exemples parfaits.

La solution proposée

On a développé un système qui permet aux utilisateurs de "regarder" la personne qu'ils veulent écouter pendant quelques secondes pour capturer un court extrait audio, même si c'est bruyant. Cet extrait est ensuite utilisé pour identifier les caractéristiques uniques de la voix du locuteur, ce qui facilite la concentration sur lui par la suite tout en ignorant les autres.

Comment ça marche

  1. Phase d'inscription : L'utilisateur regarde la personne qu'il veut entendre pendant que le dispositif enregistre quelques secondes d'audio. Cet enregistrement n'a pas besoin d'être parfait ; il peut inclure du bruit de fond et d'autres voix.

  2. Reconnaissance de la voix : En utilisant l'échantillon audio enregistré, le dispositif apprend les caractéristiques vocales de cette personne.

  3. Phase d'écoute : Une fois que le dispositif a enregistré l'échantillon, l'utilisateur peut détourner le regard ou bouger. Le dispositif continuera à se concentrer sur la voix du locuteur désiré et à réduire ou éliminer les sons des autres autour d'eux.

Détails techniques

Amélioration de la qualité du signal

Notre système peut améliorer considérablement la clarté de la voix du locuteur désiré - d'environ 7 dB, ce qui signifie beaucoup moins de bruit par rapport à la parole désirée. Il peut traiter des morceaux d'audio très rapidement, ce qui le rend adapté à une utilisation en temps réel.

Comment on a testé

On a testé notre système dans divers environnements pour voir comment il fonctionnait avec différents locuteurs et contextes. Les résultats étaient prometteurs. Il s'est bien adapté à des contextes intérieurs et extérieurs, ainsi qu'aux locuteurs en mouvement.

Interface utilisateur

La méthode d'inscription que nous avons développée est simple et conviviale. Les utilisateurs n'ont qu'à regarder le locuteur désiré pendant quelques secondes, ce qui facilite la capture de l'échantillon audio nécessaire. Le système est conçu pour être pratique, garantissant que les performances ne baissent pas par rapport à d'autres méthodes qui nécessitent des exemples audio clairs.

Applications dans le monde réel

On peut imaginer de nombreux scénarios où ce système pourrait être utile :

  1. Visites guidées : Imaginez être en visite avec un guide qui parle au milieu de beaucoup d'autres bavardages. Ce système vous aiderait à vous concentrer sur la voix du guide.

  2. Conversations dans des endroits animés : Quand vous parlez avec des amis dans un café bruyant ou dans une rue animée, ce système pourrait vous aider à mieux les entendre.

  3. Transports en commun : Dans un bus ou un train bondé, le système vous permettrait de profiter d'une conversation avec un ami sans distractions.

La technologie derrière ça

Casques à réduction de bruit

Les avancées dans la technologie de réduction de bruit au cours de la dernière décennie ont permis de réduire considérablement les sons environnementaux. Cependant, la plupart des systèmes de réduction de bruit ne peuvent pas sélectionner différemment les voix en fonction de leurs caractéristiques uniques. Notre système tire parti de la technologie de réduction de bruit tout en incorporant la capacité de se concentrer sur des voix spécifiques.

Apprentissage profond

L'apprentissage profond est un type d'intelligence artificielle qui permet aux machines d'apprendre à partir de données. Dans notre cas, le système utilise cette technologie pour apprendre les traits vocaux du locuteur cible basé sur cet échantillon audio court. Les systèmes traditionnels nécessitent souvent des échantillons audio propres, tandis que le nôtre peut fonctionner avec des exemples bruyants.

Le réseau d'inscription

Nous avons développé deux types de réseaux pour l'inscription : l'un utilise le formation de faisceau et l'autre utilise la distillation de connaissances. Les deux sont conçus pour capturer les caractéristiques uniques de la voix d'un locuteur même lorsque l'enregistrement n'est pas parfait.

  1. Réseau de formation de faisceau : Aide à estimer l'audio du locuteur désiré à partir d'enregistrements bruyants.

  2. Réseau de distillation de connaissances : Cette approche enseigne au système à apprendre à partir d'enregistrements plus clairs et à appliquer ces connaissances à des enregistrements bruyants.

Traitement en temps réel

Notre système est conçu pour minimiser les délais. Il peut traiter l'audio rapidement et efficacement sur un processeur embarqué, ce qui le rend pratique pour une utilisation quotidienne. Le système fonctionne efficacement même sur des appareils plus petits, ce qui signifie qu'il n'a pas besoin d'un ordinateur puissant pour fonctionner.

Résultats de nos études

On a recueilli des données à partir de scénarios réels où les gens ont utilisé notre système. Dans nos études, les participants ont testé le système dans divers environnements pour voir combien il pouvait se concentrer sur un locuteur sélectionné.

Retours des participants

Les participants ont rapporté que notre système réduisait efficacement le bruit de fond tout en améliorant la clarté de la voix du locuteur cible. Les retours étaient très positifs, beaucoup disant qu'ils pouvaient mieux profiter des conversations dans des endroits bruyants.

Méthodes d'inscription préférées

On a également examiné quelles méthodes les gens préféraient pour inscrire un locuteur cible. La plupart des utilisateurs aimaient utiliser un bouton physique sur les écouteurs pour signaler qu'ils étaient prêts à commencer l'enregistrement, car cela semblait plus intuitif que d'utiliser une application sur smartphone.

Défis et limitations

Bien que notre système montre un grand potentiel, il y a encore certains défis à relever.

  1. Similitude des locuteurs : Si le locuteur désiré ressemble beaucoup à une autre personne, il peut être difficile de séparer leurs voix.

  2. Mouvement : Des mouvements rapides de l'utilisateur ou du locuteur peuvent affecter la qualité audio.

  3. Changement des environnements sonores : Si le bruit de fond change de manière significative pendant l'utilisation, cela peut affecter la capacité du système à se concentrer sur le locuteur cible.

Directions futures

À l'avenir, nous visons à affiner davantage notre système. Cela inclut des moyens de gérer plusieurs locuteurs à la fois, d'améliorer la technologie utilisée pour traiter l'audio et d'améliorer les fonctionnalités adaptatives du système.

  1. Multiples locuteurs : Une direction potentielle est de développer des méthodes pour inscrire et distinguer plusieurs locuteurs, permettant aux utilisateurs de se concentrer sur plus d'une voix dans des environnements bondés.

  2. Apprentissage adaptatif : Nous prévoyons d'améliorer la capacité de notre système à apprendre et à s'adapter aux changements dans l'environnement et aux caractéristiques des locuteurs au fil du temps.

  3. Intégration avec d'autres technologies : Les itérations futures du système pourraient également être intégrées à d'autres appareils, comme les smartphones, pour une expérience plus fluide.

Conclusion

Notre technologie d'écoute proposée représente une avancée passionnante dans le traitement audio. Elle permet aux utilisateurs de se concentrer sur des voix spécifiques tout en ignorant les distractions dans leur environnement. Cette capacité a de nombreuses applications dans des situations quotidiennes, des conversations aux visites guidées.

En utilisant des algorithmes intelligents et un traitement en temps réel, nous avons créé un système qui s'adapte à divers réglages et situations. Bien que des défis demeurent, les retours des utilisateurs ont été encourageants. Alors que nous continuons à améliorer et raffiner cette technologie, nous visons à permettre aux utilisateurs de prendre le contrôle de leurs expériences d'écoute dans un monde de plus en plus bruyant.

Source originale

Titre: Look Once to Hear: Target Speech Hearing with Noisy Examples

Résumé: In crowded settings, the human brain can focus on speech from a target speaker, given prior knowledge of how they sound. We introduce a novel intelligent hearable system that achieves this capability, enabling target speech hearing to ignore all interfering speech and noise, but the target speaker. A naive approach is to require a clean speech example to enroll the target speaker. This is however not well aligned with the hearable application domain since obtaining a clean example is challenging in real world scenarios, creating a unique user interface problem. We present the first enrollment interface where the wearer looks at the target speaker for a few seconds to capture a single, short, highly noisy, binaural example of the target speaker. This noisy example is used for enrollment and subsequent speech extraction in the presence of interfering speakers and noise. Our system achieves a signal quality improvement of 7.01 dB using less than 5 seconds of noisy enrollment audio and can process 8 ms of audio chunks in 6.24 ms on an embedded CPU. Our user studies demonstrate generalization to real-world static and mobile speakers in previously unseen indoor and outdoor multipath environments. Finally, our enrollment interface for noisy examples does not cause performance degradation compared to clean examples, while being convenient and user-friendly. Taking a step back, this paper takes an important step towards enhancing the human auditory perception with artificial intelligence. We provide code and data at: https://github.com/vb000/LookOnceToHear.

Auteurs: Bandhav Veluri, Malek Itani, Tuochao Chen, Takuya Yoshioka, Shyamnath Gollakota

Dernière mise à jour: 2024-05-29 00:00:00

Langue: English

Source URL: https://arxiv.org/abs/2405.06289

Source PDF: https://arxiv.org/pdf/2405.06289

Licence: https://creativecommons.org/licenses/by-nc-sa/4.0/

Changements: Ce résumé a été créé avec l'aide de l'IA et peut contenir des inexactitudes. Pour obtenir des informations précises, veuillez vous référer aux documents sources originaux dont les liens figurent ici.

Merci à arxiv pour l'utilisation de son interopérabilité en libre accès.

Plus d'auteurs

Articles similaires