Simple Science

La science de pointe expliquée simplement

# Génie électrique et science des systèmes# Traitement de l'audio et de la parole# Apprentissage automatique

Améliorer la qualité audio pour les réunions à distance

Un nouveau design d'écouteurs améliore la clarté du son grâce à la technologie de conduction osseuse.

― 9 min lire


Écouteurs de nouvelleÉcouteurs de nouvellegénération pour desappels clairsdistance.clarté audio dans les communications àUn design révolutionnaire améliore la
Table des matières

Les réunions à distance sont devenues courantes, mais beaucoup de gens ont des problèmes de son clair ou d'appels vocaux déformés. Ça peut rendre les appels vidéo frustrants. Une des raisons pour ce problème, c'est que les petits écouteurs sans fil galèrent souvent à capturer un son de bonne qualité à cause de leurs minuscules micros. Ces écouteurs peuvent capter le Bruit de fond, ce qui rend difficile d'entendre la personne qui parle.

Pour régler ce souci, des techniques d'amélioration audio peuvent aider. Une façon d'améliorer la qualité du son, c'est grâce à la suppression du bruit, particulièrement utile quand la voix de la personne est difficile à détecter à cause de micros de mauvaise qualité. Cependant, créer un système qui fonctionne bien tout en consommant peu d'énergie est un défi, surtout pour de petits appareils comme les écouteurs.

De nouvelles technologies permettent maintenant une meilleure capture audio avec des micros à conduction osseuse. Ces micros captent les vibrations sonores à travers le crâne de l'utilisateur plutôt qu'à travers l'air, ce qui les rend meilleurs pour isoler la voix de l'utilisateur. Cet article parle de la conception et des tests d'un nouvel écouteur qui utilise des micros à conduction osseuse, visant à offrir un son plus clair pour les conversations à distance.

L'essor de la communication à distance

Au cours des deux dernières décennies, notre façon de communiquer a radicalement changé. Les avancées technologiques ont facilité la connexion des gens à travers le monde, peu importe la distance. L'essor des outils de visioconférence et des smartphones a rendu les réunions à distance courantes au travail et dans la vie quotidienne. La pandémie de COVID-19 a accéléré cette tendance, car de plus en plus d'entreprises comptent sur la communication en ligne pour leurs opérations.

Cependant, malgré l'utilisation croissante des outils de communication à distance, la Qualité audio reste souvent un problème. Les voix déformées et le bruit de fond rendent les conversations efficaces difficiles. Les petits écouteurs sans fil, qui sont devenus populaires pour leur praticité, compliquent souvent encore plus la situation. Leurs micros sont généralement situés loin de la bouche, ce qui rend difficile la capture d'un son clair.

Les défis des petits écouteurs

Les petits écouteurs sans fil rencontrent des défis uniques en ce qui concerne la qualité audio. Leurs micros, situés à distance de la bouche de l'utilisateur, ont souvent du mal à capturer la voix de manière claire. Ils tendent à capter beaucoup de bruit environnant, y compris les sons d'autres personnes à proximité ou les bruits de l'environnement.

Bien qu'il existe de nombreuses solutions développées pour améliorer la qualité audio, les limitations de ces petits dispositifs rendent difficile la mise en place d'améliorations efficaces. Le matériel de ces écouteurs est souvent limité et ne peut pas gérer des tâches de traitement audio complexes. De plus, les petites batteries souvent utilisées dans ces appareils nécessitent que toute amélioration audio consomme peu d'énergie tout en fournissant de bons résultats.

Cela crée une situation où les utilisateurs rencontrent fréquemment des problèmes de qualité audio pendant les appels, entraînant frustration et perte de temps.

Le rôle de la Détection d'activité vocale

La détection d'activité vocale (VAD) est une étape cruciale pour améliorer la qualité audio. Elle permet au système d'identifier quand quelqu'un parle, ce qui aide à réduire le bruit de fond pendant la communication. Les systèmes VAD efficaces sont généralement complexes et nécessitent une puissance de calcul significative, ce qui peut être un défi pour les petits appareils.

Beaucoup de systèmes VAD existants reposent sur du matériel puissant, rendant leur mise en œuvre difficile dans de petits écouteurs. Des efforts récents pour créer des solutions à faible consommation d'énergie pour le VAD sont en cours, permettant une meilleure amélioration audio même avec un matériel limité.

Introduction des micros à conduction osseuse

Les micros à conduction osseuse offrent une nouvelle opportunité d'améliorer la qualité audio dans de petits dispositifs. Contrairement aux micros traditionnels, qui captent le son à travers l'air, les micros à conduction osseuse captent le son par les vibrations sur le crâne de l'utilisateur. Cela leur permet d'isoler la voix de l'utilisateur beaucoup mieux que les micros ordinaires, même dans des environnements bruyants.

L'utilisation de la conduction osseuse peut résoudre certains des principaux défis posés par les petits écouteurs sans fil. Ces micros offrent une meilleure isolation par rapport au bruit environnant, ce qui est essentiel pour obtenir une capture vocale plus claire. Cela peut être particulièrement utile pour la détection d'activité vocale personnalisée, permettant au système de se concentrer sur la voix de l'utilisateur tout en filtrant les sons inutiles.

Développer une plateforme d'écouteurs personnalisée

Étant donné les défis rencontrés par les écouteurs sans fil traditionnels, une plateforme d'écouteurs personnalisée a été développée pour tirer parti des avantages des micros à conduction osseuse. Cette plateforme vise à intégrer des capacités de traitement audio avancées tout en maintenant une faible consommation d'énergie.

Le design inclut les composants suivants :

  • Sélection de micros : Les écouteurs disposent à la fois de micros à conduction osseuse et d'anciens micros à conduction aérienne. Cette approche double capte le son de différentes manières, offrant une représentation plus précise de la voix de l'utilisateur.

  • Gestion de l'énergie : Une petite mais efficace batterie permet aux écouteurs de fonctionner. Le système de gestion de l'énergie garantit que le dispositif utilise peu d'énergie, ce qui est crucial pour maintenir une longue durée de vie de la batterie.

  • Unité de traitement : Le dispositif est équipé d'une unité de traitement puissante, lui permettant d'exécuter des algorithmes de détection vocale efficacement sans compter sur des ressources informatiques externes.

Algorithme personnalisé de détection d'activité vocale

Un algorithme unique pour la détection d'activité vocale personnalisée (pVAD) a été développé pour améliorer la capture vocale dans ces écouteurs. Cet algorithme utilise des techniques avancées de réseaux neuronaux pour détecter la présence de la voix de l'utilisateur tout en filtrant le bruit de fond.

L'algorithme pVAD fonctionne en analysant les motifs audio captés par le micro à conduction osseuse et en reconnaissant la parole de l'utilisateur. Le système le fait en temps réel, fournissant un retour rapide pour améliorer la qualité audio pendant la communication.

En utilisant un réseau neuronal plus petit avec environ 5000 paramètres, l'algorithme pVAD est suffisamment léger pour fonctionner directement sur les écouteurs sans avoir besoin de grandes quantités d'énergie.

Évaluation des performances

Pour évaluer l'efficacité du nouveau design d'écouteur et de l'algorithme pVAD, plusieurs métriques de performance ont été considérées. Ces métriques comprenaient l'exactitude de détection, le temps de réponse et la consommation d'énergie.

Les résultats des évaluations ont montré que le micro à conduction osseuse avait considérablement amélioré le rapport signal/bruit (SNR) par rapport aux micros traditionnels. Cela signifie que l'écouteur pouvait séparer la voix de l'utilisateur du bruit environnant de manière plus efficace.

Lors des tests, l'algorithme pVAD a démontré un niveau d'exactitude élevé. Il a systématiquement détecté la voix de l'utilisateur, même dans des environnements bruyants où les micros traditionnels avaient du mal. Le temps de réponse rapide de 12,8 millisecondes signifie qu'il y avait un minimum de retard dans le traitement de l'audio, ce qui le rend adapté pour une communication en temps réel.

Comparaison de différents systèmes

Pour évaluer davantage les performances du système de conduction osseuse, des comparaisons ont été faites avec des micros à conduction aérienne traditionnels. Ces tests ont examiné à quel point chaque système pouvait détecter la voix de l'utilisateur en présence de bruit de fond.

Les résultats ont illustré que le système à conduction osseuse surpassait les méthodes traditionnelles, atteignant systématiquement environ 15 dB de SNR en plus. Cet avantage significatif permet aux micros à conduction osseuse de fournir un son plus clair dans des situations difficiles.

Impact sur la durée de vie de la batterie

La durée de vie de la batterie est un aspect critique pour les petits écouteurs sans fil. Le nouveau design d'écouteurs a atteint une efficacité énergétique impressionnante, ne consommant en moyenne que 2,64 mW. Cette faible consommation d'énergie signifie plus d'utilisation entre les charges, rendant les écouteurs plus conviviaux.

Le design permet également au système d'entrer en modes veille à faible consommation quand il n'est pas utilisé, prolongeant ainsi encore la durée de vie de la batterie. Les utilisateurs peuvent s'attendre à ce que leurs écouteurs fonctionnent bien sans recharges fréquentes, améliorant l'ensemble de l'expérience.

Possibilités futures

Les avancées dans les micros à conduction osseuse et la détection d'activité vocale personnalisée ouvrent de nombreuses portes pour l'avenir. Il y a un grand potentiel pour améliorer encore la qualité audio dans diverses applications, pas seulement pour la communication, mais aussi pour le divertissement, le suivi de la santé, et plus.

La capacité d'isoler efficacement la voix de l'utilisateur du bruit environnant pourrait mener à des solutions innovantes pour la technologie de réduction de bruit. Cela pourrait aider dans des environnements où le bruit de fond est omniprésent, permettant aux utilisateurs de se concentrer sur ce qu'ils veulent entendre.

De plus, l'intégration de capteurs de suivi de la santé dans les mêmes écouteurs pourrait fournir des informations précieuses sur le bien-être de l'utilisateur sans nécessiter d'appareils supplémentaires. Un suivi continu des signes vitaux pourrait devenir plus accessible, créant de nouvelles opportunités de gestion de la santé.

Conclusion

La conception et la mise en œuvre d'un nouveau système d'écouteurs utilisant des micros à conduction osseuse et une détection d'activité vocale personnalisée représentent une amélioration substantielle de la qualité audio pour la communication à distance. En répondant aux limitations des écouteurs sans fil traditionnels, cette solution innovante offre un son plus clair, une plus longue durée de vie de la batterie et une meilleure convivialité.

Alors que la technologie continue d'évoluer, l'intégration de capacités de traitement audio avancées dans les dispositifs quotidiens va redéfinir notre façon de communiquer et d'interagir avec le monde qui nous entoure. L'avenir s'annonce prometteur, et les applications potentielles pour cette technologie sont vastes.

Source originale

Titre: In-Ear-Voice: Towards Milli-Watt Audio Enhancement With Bone-Conduction Microphones for In-Ear Sensing Platforms

Résumé: The recent ubiquitous adoption of remote conferencing has been accompanied by omnipresent frustration with distorted or otherwise unclear voice communication. Audio enhancement can compensate for low-quality input signals from, for example, small true wireless earbuds, by applying noise suppression techniques. Such processing relies on voice activity detection (VAD) with low latency and the added capability of discriminating the wearer's voice from others - a task of significant computational complexity. The tight energy budget of devices as small as modern earphones, however, requires any system attempting to tackle this problem to do so with minimal power and processing overhead, while not relying on speaker-specific voice samples and training due to usability concerns. This paper presents the design and implementation of a custom research platform for low-power wireless earbuds based on novel, commercial, MEMS bone-conduction microphones. Such microphones can record the wearer's speech with much greater isolation, enabling personalized voice activity detection and further audio enhancement applications. Furthermore, the paper accurately evaluates a proposed low-power personalized speech detection algorithm based on bone conduction data and a recurrent neural network running on the implemented research platform. This algorithm is compared to an approach based on traditional microphone input. The performance of the bone conduction system, achieving detection of speech within 12.8ms at an accuracy of 95\% is evaluated. Different SoC choices are contrasted, with the final implementation based on the cutting-edge Ambiq Apollo 4 Blue SoC achieving 2.64mW average power consumption at 14uJ per inference, reaching 43h of battery life on a miniature 32mAh li-ion cell and without duty cycling.

Auteurs: Philipp Schilk, Niccolò Polvani, Andrea Ronco, Milos Cernak, Michele Magno

Dernière mise à jour: 2023-09-05 00:00:00

Langue: English

Source URL: https://arxiv.org/abs/2309.02393

Source PDF: https://arxiv.org/pdf/2309.02393

Licence: https://creativecommons.org/licenses/by/4.0/

Changements: Ce résumé a été créé avec l'aide de l'IA et peut contenir des inexactitudes. Pour obtenir des informations précises, veuillez vous référer aux documents sources originaux dont les liens figurent ici.

Merci à arxiv pour l'utilisation de son interopérabilité en libre accès.

Plus d'auteurs

Articles similaires