Simple Science

Ciencia de vanguardia explicada de forma sencilla

# Ingeniería Eléctrica y Ciencia de Sistemas# Robótica# Sonido# Procesado de Audio y Voz

Avances en la tecnología de reconocimiento de voz para robots

Nuevos métodos mejoran la conversación entre humanos y robots al aumentar la claridad del habla.

― 6 minilectura


Claridad de Habla deClaridad de Habla deRobots de Siguiente Nivelcomunicación humano-robot.Métodos mejorados para una mejor
Tabla de contenidos

En los últimos años, las interacciones entre humanos y robots se han vuelto más comunes. Estas interacciones pueden llevar a conversaciones más fluidas cuando el robot puede entender lo que el humano está diciendo incluso mientras habla. Esto a menudo se complica por interferencias, como el ruido del entorno o el habla superpuesta, lo que lleva a desafíos para reconocer lo que dice el humano. Un gran problema que surge durante estas interacciones es cuán efectivamente los robots detectan e interpretan el habla humana, especialmente cuando hablan al mismo tiempo.

El Desafío

Cuando un robot, como Pepper, está hablando y un humano intenta interrumpir o hablar sobre él, las grabaciones pueden mezclarse, haciendo difícil entender las palabras del humano. Este problema se conoce como Filtrado de Habla de Ego Robot (RESF). Un método común para mejorar la comprensión del habla se llama Sustracción espectral, que consiste en estimar y eliminar el ruido de la señal de audio. Sin embargo, este método tiene sus fallas. En particular, puede eliminar demasiado de la audio, especialmente en ciertas frecuencias, lo que lleva a un habla distorsionada.

Sustracción Espectral y sus Problemas

La sustracción espectral es una técnica sencilla usada para mejorar el habla. Funciona al quitar el ruido estimado del habla grabada. Aunque este método es fácil de usar, a menudo no funciona bien en entornos dinámicos con sonidos variados. Esto lleva a lo que se llama sobre sustracción, donde el habla del robot puede causar que partes de la señal de habla humana sean incorrectamente eliminadas. Como resultado, algunas palabras pueden ser mal escuchadas, particularmente aquellas que usan sonidos nasales o explosivos, haciendo que sea mucho más difícil para los sistemas de reconocimiento de habla interpretar con precisión lo que se dijo.

Un Nuevo Enfoque

Para abordar este problema, los investigadores han desarrollado un nuevo método que emplea tecnología avanzada en mejora del habla, buscando mejorar cuán bien los robots pueden entender las interrupciones humanas. Este método utiliza un tipo de red neuronal conocida como Red Generativa Antagónica (GAN) que aprende a crear señales de habla de mejor calidad a partir de grabaciones distorsionadas.

Se ha propuesto una versión específica de esta red, llamada Red Generativa Antagónica Métrica Basada en Conformador de Dos Máscaras (CMGAN). Este modelo ayuda a recuperar partes del habla que fueron previamente eliminadas o distorsionadas al mejorar el equilibrio entre diferentes frecuencias de sonido. Aprovecha la información de alta frecuencia para compensar las frecuencias más bajas que se hayan perdido.

Cómo Funciona el CMGAN de Dos Máscaras

El CMGAN de Dos Máscaras opera en dos pasos principales. Primero, genera una máscara que ayuda a recuperar los componentes de frecuencia baja que se perdieron durante la eliminación del ruido. Esto es crucial porque la frecuencia fundamental, que juega un papel importante en cómo suena el habla, puede verse afectada por la sobre sustracción. Luego, el modelo propuesto procesa esta información para limpiar aún más las señales de audio, mejorando la claridad general del habla detectada.

Procesamiento en Tiempo Real

Uno de los grandes avances en este enfoque es su capacidad para procesar audio en casi tiempo real. Los modelos tradicionales suelen requerir segmentos de audio de entrada más largos, lo cual no es práctico para interacciones instantáneas. Usando un método llamado Procesamiento Incremental (IP), el CMGAN de Dos Máscaras puede operar usando pequeños buffers de audio. Recoge estas grabaciones cortas y las combina, permitiendo un procesamiento eficiente del audio mientras mantiene la comunicación fluyendo sin problemas.

Pruebas del Nuevo Sistema

Para evaluar qué tan bien funciona este nuevo método, los investigadores crearon dos conjuntos de datos de audio. El primer conjunto se hizo mezclando habla humana limpia con versiones distorsionadas obtenidas a través del filtrado de habla del robot. El segundo conjunto añadió varios ruidos de fondo para ver qué tan bien el sistema podía diferenciar la habla humana de estos sonidos competidores.

Los resultados fueron alentadores. En escenarios con ruido de aeropuertos o entornos ocupados, el CMGAN de Dos Máscaras mostró mejoras significativas en el reconocimiento del habla. En casos donde el ruido de fondo era más caótico, como múltiples personas hablando al mismo tiempo, el modelo aún logró reducir los malentendidos y mejorar las tasas de reconocimiento.

El Impacto del Ruido de Fondo

En la vida real, las interacciones con robots a menudo ocurren en entornos llenos de ruido, lo que hace aún más complicado que los sistemas de reconocimiento de habla funcionen efectivamente. Las pruebas mostraron que el CMGAN de Dos Máscaras puede mejorar la detección de habla incluso cuando hay sonidos de fondo desafiantes. Por ejemplo, cuando el nivel de ruido era favorable, el sistema podía alcanzar tasas de reconocimiento donde la mayoría de las afirmaciones se entendían con precisión.

Conclusiones y Trabajo Futuro

En conclusión, el CMGAN de Dos Máscaras representa un avance prometedor en la tecnología de mejora del habla para robots. Al manejar efectivamente la eliminación del ruido y reconocer la habla humana, busca crear mejores experiencias de comunicación entre humanos y máquinas. La combinación de esta tecnología con métodos de procesamiento en tiempo real tiene un gran potencial para aplicaciones en el mundo real, permitiendo que los robots interactúen de manera más natural sin interrumpir el flujo de la conversación.

Los desarrollos futuros se centrarán en implementar estos sistemas en robots como Pepper y probar su eficiencia en diferentes escenarios de interacción humano-robot en el mundo real. A medida que la tecnología avanza, podemos esperar que los robots se vuelvan aún mejores en entender y responder al habla humana, haciendo que nuestras interacciones con las máquinas sean más fluidas e intuitivas.

Fuente original

Título: Spectral oversubtraction? An approach for speech enhancement after robot ego speech filtering in semi-real-time

Resumen: Spectral subtraction, widely used for its simplicity, has been employed to address the Robot Ego Speech Filtering (RESF) problem for detecting speech contents of human interruption from robot's single-channel microphone recordings when it is speaking. However, this approach suffers from oversubtraction in the fundamental frequency range (FFR), leading to degraded speech content recognition. To address this, we propose a Two-Mask Conformer-based Metric Generative Adversarial Network (CMGAN) to enhance the detected speech and improve recognition results. Our model compensates for oversubtracted FFR values with high-frequency information and long-term features and then de-noises the new spectrogram. In addition, we introduce an incremental processing method that allows semi-real-time audio processing with streaming input on a network trained on long fixed-length input. Evaluations of two datasets, including one with unseen noise, demonstrate significant improvements in recognition accuracy and the effectiveness of the proposed two-mask approach and incremental processing, enhancing the robustness of the proposed RESF pipeline in real-world HRI scenarios.

Autores: Yue Li, Koen V. Hindriks, Florian A. Kunneman

Última actualización: 2024-09-10 00:00:00

Idioma: English

Fuente URL: https://arxiv.org/abs/2409.06274

Fuente PDF: https://arxiv.org/pdf/2409.06274

Licencia: https://creativecommons.org/licenses/by/4.0/

Cambios: Este resumen se ha elaborado con la ayuda de AI y puede contener imprecisiones. Para obtener información precisa, consulte los documentos originales enlazados aquí.

Gracias a arxiv por el uso de su interoperabilidad de acceso abierto.

Más de autores

Artículos similares