Mejorando la Calidad de Audio para Reuniones Remotas
Un nuevo diseño de auriculares mejora la claridad del sonido usando tecnología de conducción ósea.
― 10 minilectura
Tabla de contenidos
- El auge de la comunicación remota
- Los desafíos de los auriculares pequeños
- El papel de la Detección de actividad de voz
- Introduciendo micrófonos de conducción ósea
- Desarrollando una plataforma de auriculares personalizada
- Algoritmo personalizado de detección de actividad de voz
- Evaluación del rendimiento
- Comparando diferentes sistemas
- Impacto en la duración de la batería
- Posibilidades futuras
- Conclusión
- Fuente original
- Enlaces de referencia
Las reuniones remotas son comunes ahora, pero mucha gente tiene problemas con el sonido poco claro o las llamadas de voz distorsionadas. Esto puede llevar a la frustración durante las videollamadas. Una razón de este problema es que los pequeños auriculares inalámbricos a menudo tienen dificultades para captar audio de alta calidad debido a sus micrófonos diminutos. Estos auriculares pueden captar Ruido de fondo, lo que dificulta escuchar a la persona que habla.
Para abordar este problema, las técnicas de mejora de audio pueden ayudar. Una forma de mejorar la calidad del sonido es a través de la supresión de ruido, que es especialmente útil cuando es difícil detectar la voz de la persona debido a micrófonos de baja calidad. Sin embargo, crear un sistema que funcione bien con un consumo mínimo de energía es un desafío, especialmente para dispositivos pequeños como los auriculares.
Las nuevas tecnologías ahora permiten una mejor captura de audio utilizando micrófonos de conducción ósea. Este tipo de micrófonos captan las vibraciones del sonido a través del cráneo del usuario en lugar de a través del aire, lo que los hace mejores para aislar la voz del usuario. Este documento discute el diseño y la prueba de un nuevo auricular que utiliza micrófonos de conducción ósea, con el objetivo de ofrecer un sonido más claro para conversaciones remotas.
El auge de la comunicación remota
En las últimas dos décadas, la forma en que nos comunicamos ha cambiado drásticamente. Los avances en tecnología han facilitado que las personas de todo el mundo se conecten, sin importar la distancia. El auge de las herramientas de videoconferencia y los teléfonos inteligentes ha hecho que las reuniones remotas sean una parte regular del trabajo y la vida diaria. La pandemia de COVID-19 ha acelerado esta tendencia, ya que más empresas dependen de la comunicación en línea para sus operaciones.
Sin embargo, a pesar del creciente uso de herramientas de comunicación remota, la calidad del audio sigue siendo un problema. Voces distorsionadas y ruido de fondo pueden dificultar las conversaciones efectivas. Los pequeños auriculares inalámbricos, que se han vuelto populares por su conveniencia, a menudo complican aún más esto. Sus micrófonos suelen estar posicionados lejos de la boca, lo que dificulta captar audio claro.
Los desafíos de los auriculares pequeños
Los pequeños auriculares inalámbricos enfrentan desafíos únicos cuando se trata de Calidad de audio. Sus micrófonos, que están ubicados a una distancia de la boca del usuario, a menudo tienen dificultades para captar la voz claramente. Tienden a captar mucho ruido del entorno, incluidos sonidos de otras personas cercanas o ruidos del ambiente.
Aunque hay muchas soluciones desarrolladas para mejorar la calidad del audio, las limitaciones de estos pequeños dispositivos hacen que sea difícil implementar mejoras efectivas. El hardware en estos auriculares a menudo es limitado y no puede manejar tareas complejas de procesamiento de audio. Además, las pequeñas baterías que se utilizan con frecuencia en estos dispositivos requieren que cualquier mejora de audio use una cantidad mínima de energía, mientras aún entrega buenos resultados.
Esto crea una situación en la que los usuarios enfrentan problemas frecuentes con la calidad del audio durante las llamadas, lo que lleva a la frustración y a perder tiempo.
Detección de actividad de voz
El papel de laLa Detección de Actividad de Voz (VAD) es un paso crucial para mejorar la calidad del audio. Permite al sistema identificar cuándo alguien está hablando, lo que ayuda a reducir el ruido de fondo durante la comunicación. Los sistemas VAD efectivos son típicamente complejos y requieren un poder de cómputo significativo, lo que puede ser un desafío para dispositivos pequeños.
Muchos sistemas VAD existentes dependen de hardware potente, lo que hace que sea difícil implementarlos en pequeños auriculares. Se están llevando a cabo esfuerzos recientes para crear soluciones de VAD de bajo consumo, lo que permite una mayor mejora de audio incluso con hardware limitado.
Introduciendo micrófonos de conducción ósea
Los micrófonos de conducción ósea presentan una nueva oportunidad para mejorar la calidad del audio en dispositivos pequeños. A diferencia de los micrófonos tradicionales, que captan el sonido a través del aire, los micrófonos de conducción ósea captan el sonido a través de vibraciones en el cráneo del usuario. Esto les permite aislar la voz del usuario mucho mejor que los micrófonos regulares, incluso en entornos ruidosos.
El uso de conducción ósea puede abordar algunos de los principales desafíos que presentan los auriculares inalámbricos pequeños. Estos micrófonos ofrecen un mejor aislamiento del ruido circundante, lo que es esencial para lograr una captura de voz más clara. Esto puede ser particularmente útil para la detección personalizada de actividad de voz, permitiendo que el sistema se enfoque en la voz del usuario mientras filtra sonidos innecesarios.
Desarrollando una plataforma de auriculares personalizada
Dado los desafíos que enfrentan los auriculares inalámbricos tradicionales, se desarrolló una plataforma de auriculares personalizada para aprovechar las ventajas de los micrófonos de conducción ósea. Esta plataforma tiene como objetivo integrar capacidades avanzadas de procesamiento de audio manteniendo un bajo consumo de energía.
El diseño incluye los siguientes componentes:
Selección de micrófonos: Los auriculares cuentan con micrófonos de conducción ósea y micrófonos de conducción aérea tradicionales. Este enfoque dual capta el sonido usando diferentes métodos, proporcionando una representación más precisa de la voz del usuario.
Gestión de Energía: Una pequeña pero eficiente batería mantiene los auriculares funcionando. El sistema de gestión de energía asegura que el dispositivo use energía mínima, lo que es crucial para mantener una larga duración de la batería.
Unidad de procesamiento: El dispositivo está equipado con una unidad de procesamiento potente, lo que le permite ejecutar algoritmos de detección de voz de manera efectiva sin depender de recursos de cómputo externos.
Algoritmo personalizado de detección de actividad de voz
Se desarrolló un algoritmo único para la detección personalizada de actividad de voz (pVAD) para mejorar la captura de voz en estos auriculares. Este algoritmo utiliza técnicas avanzadas de redes neuronales para detectar la presencia de la voz del usuario mientras filtra el ruido de fondo.
El algoritmo pVAD funciona analizando los patrones de audio captados por el micrófono de conducción ósea y reconociendo el habla del usuario. El sistema lo hace en tiempo real, proporcionando retroalimentación rápida para mejorar la calidad del audio durante la comunicación.
Al utilizar una red neuronal más pequeña con alrededor de 5000 parámetros, el algoritmo pVAD es lo suficientemente ligero como para ejecutarse directamente en los auriculares sin requerir grandes cantidades de energía.
Evaluación del rendimiento
Para evaluar la efectividad del nuevo diseño de auriculares y el algoritmo pVAD, se consideraron varios métricas de rendimiento. Estas métricas incluían precisión de detección, tiempo de respuesta y consumo de energía.
Los resultados de las evaluaciones mostraron que el micrófono de conducción ósea logró una mejora significativa en la relación señal-ruido (SNR) en comparación con los micrófonos tradicionales. Esto significa que el auricular podía separar la voz del usuario del ruido circundante de manera más efectiva.
En las pruebas, el algoritmo pVAD demostró un alto nivel de precisión. Detectó consistentemente la voz del usuario, incluso en entornos ruidosos donde los micrófonos tradicionales tenían dificultades. El tiempo de respuesta rápido de 12.8 milisegundos significa que hubo un retraso mínimo en el procesamiento del audio, lo que lo hace adecuado para la comunicación en tiempo real.
Comparando diferentes sistemas
Para evaluar aún más el rendimiento del sistema de conducción ósea, se realizaron comparaciones con micrófonos de conducción aérea tradicionales. Estas pruebas examinaron qué tan bien cada sistema podía detectar la voz del usuario en presencia de ruido de fondo.
Los resultados ilustraron que el sistema de conducción ósea superó a los métodos tradicionales, logrando consistentemente alrededor de 15 dB más de SNR. Esta ventaja significativa permite que los micrófonos de conducción ósea ofrezcan un audio más claro en situaciones desafiantes.
Impacto en la duración de la batería
La duración de la batería es un aspecto crítico para los auriculares inalámbricos pequeños. El nuevo diseño de auriculares logró una eficiencia energética impresionante, consumiendo solo 2.64 mW en promedio. Este bajo consumo de energía significa un uso más prolongado entre cargas, haciendo que los auriculares sean más amigables con el usuario.
El diseño también permite que el sistema entre en modos de sueño de bajo consumo cuando no está en uso, extendiendo aún más la duración de la batería. Los usuarios pueden esperar que sus auriculares funcionen bien sin recargas frecuentes, mejorando la experiencia general.
Posibilidades futuras
Los avances en micrófonos de conducción ósea y detección personalizada de actividad de voz abren muchas puertas para el futuro. Hay un gran potencial para mejorar aún más la calidad de audio en varias aplicaciones, no solo para la comunicación, sino también para el entretenimiento, monitoreo de salud y más.
La capacidad de aislar efectivamente la voz del usuario del ruido circundante podría llevar a soluciones innovadoras para la tecnología de cancelación de ruido. Esto podría ayudar en entornos donde el ruido de fondo es prevalente, permitiendo a los usuarios enfocarse en lo que quieren escuchar.
Además, la integración de sensores de monitoreo de salud dentro de los mismos auriculares podría proporcionar información valiosa sobre el bienestar del usuario sin necesidad de dispositivos adicionales. El monitoreo continuo de signos vitales podría volverse más accesible, creando nuevas oportunidades para la gestión de la salud.
Conclusión
El diseño e implementación de un nuevo sistema de auriculares que utiliza micrófonos de conducción ósea y detección personalizada de actividad de voz presentan una mejora sustancial en la calidad de audio para la comunicación remota. Al abordar las limitaciones de los auriculares inalámbricos tradicionales, esta solución innovadora ofrece un sonido más claro, una mayor duración de la batería y una mejor usabilidad.
A medida que la tecnología continúa evolucionando, la integración de capacidades avanzadas de procesamiento de audio en dispositivos cotidianos redefinirá cómo nos comunicamos e interactuamos con el mundo que nos rodea. El futuro se ve prometedor, y las aplicaciones potenciales para esta tecnología son vastas.
Título: In-Ear-Voice: Towards Milli-Watt Audio Enhancement With Bone-Conduction Microphones for In-Ear Sensing Platforms
Resumen: The recent ubiquitous adoption of remote conferencing has been accompanied by omnipresent frustration with distorted or otherwise unclear voice communication. Audio enhancement can compensate for low-quality input signals from, for example, small true wireless earbuds, by applying noise suppression techniques. Such processing relies on voice activity detection (VAD) with low latency and the added capability of discriminating the wearer's voice from others - a task of significant computational complexity. The tight energy budget of devices as small as modern earphones, however, requires any system attempting to tackle this problem to do so with minimal power and processing overhead, while not relying on speaker-specific voice samples and training due to usability concerns. This paper presents the design and implementation of a custom research platform for low-power wireless earbuds based on novel, commercial, MEMS bone-conduction microphones. Such microphones can record the wearer's speech with much greater isolation, enabling personalized voice activity detection and further audio enhancement applications. Furthermore, the paper accurately evaluates a proposed low-power personalized speech detection algorithm based on bone conduction data and a recurrent neural network running on the implemented research platform. This algorithm is compared to an approach based on traditional microphone input. The performance of the bone conduction system, achieving detection of speech within 12.8ms at an accuracy of 95\% is evaluated. Different SoC choices are contrasted, with the final implementation based on the cutting-edge Ambiq Apollo 4 Blue SoC achieving 2.64mW average power consumption at 14uJ per inference, reaching 43h of battery life on a miniature 32mAh li-ion cell and without duty cycling.
Autores: Philipp Schilk, Niccolò Polvani, Andrea Ronco, Milos Cernak, Michele Magno
Última actualización: 2023-09-05 00:00:00
Idioma: English
Fuente URL: https://arxiv.org/abs/2309.02393
Fuente PDF: https://arxiv.org/pdf/2309.02393
Licencia: https://creativecommons.org/licenses/by/4.0/
Cambios: Este resumen se ha elaborado con la ayuda de AI y puede contener imprecisiones. Para obtener información precisa, consulte los documentos originales enlazados aquí.
Gracias a arxiv por el uso de su interoperabilidad de acceso abierto.
Enlaces de referencia
- https://www.acm.org/publications/taps/whitelist-of-latex-packages
- https://dl.acm.org/ccs.cfm
- https://www.acm.org/publications/proceedings-template
- https://capitalizemytitle.com/
- https://www.acm.org/publications/class-2012
- https://dl.acm.org/ccs/ccs.cfm
- https://ctan.org/pkg/booktabs
- https://goo.gl/VLCRBB
- https://www.acm.org/publications/taps/describing-figures/