Simple Science

Ciencia de vanguardia explicada de forma sencilla

# Ingeniería Eléctrica y Ciencia de Sistemas # Procesado de Audio y Voz # Sonido

Nuevos métodos para medir la calidad del audio

Un enfoque nuevo para la evaluación de la calidad de audio sin necesitar referencias limpias.

Jozef Coldenhoff, Milos Cernak

― 7 minilectura


Mejorando la Evaluación Mejorando la Evaluación de la Calidad de Audio limpias. evaluación de audio sin referencias Métodos innovadores reinventan la
Tabla de contenidos

Evaluar la calidad del audio es clave en muchos campos, desde telecomunicaciones hasta streaming de música. Nos ayuda a entender qué tan bueno o malo es un sonido. Por lo general, los profesionales usan oyentes humanos para juzgar la calidad del audio. Sin embargo, este proceso puede ser caro y llevar mucho tiempo. Para ahorrar recursos, investigadores e ingenieros han empezado a buscar formas de evaluar la calidad del audio usando computadoras.

Pruebas de Escucha Humana

Tradicionalmente, la mejor manera de juzgar la calidad del audio ha sido a través de pruebas de escucha humana. Estas pruebas siguen pautas específicas para asegurar que los resultados sean confiables. Por ejemplo, existen métodos como la recomendación ITU-T p.800, que se usa para evaluar la calidad del habla. Aunque estos métodos proporcionan buenos estándares, la necesidad de muchos oyentes humanos los hace menos prácticos.

Medidas Objetivas

Debido a las desventajas de las pruebas humanas, los investigadores han desarrollado medidas objetivas para la calidad del audio. Estos métodos utilizan métricas técnicas para evaluar el audio sin intervención humana. Las primeras técnicas comparaban audio degradado con versiones limpias, evaluando cuánto se perdió en calidad. Algunas métricas comunes incluyen la relación señal-ruido (SNR) y diferentes distancias espectrales.

En los últimos años, se han creado sistemas más nuevos como VISQOL, PESQ y POLQA. Estos sistemas son más sofisticados y se enfocan en evaluar la calidad del audio de una manera intrusiva. A pesar de sus avances, todavía requieren una señal de referencia limpia, lo que limita su uso en aplicaciones del mundo real.

Métodos no intrusivos

Para superar las limitaciones de los métodos tradicionales, han surgido técnicas no intrusivas. Muchas de estas técnicas utilizan aprendizaje profundo, que es un tipo de inteligencia artificial. Por ejemplo, métodos como TorchAudio-Squim y AutoMOS se enfocan en estimar la calidad del audio sin necesitar una referencia limpia.

Aun con estos avances, algunos de los métodos más nuevos pueden no explicar completamente sus predicciones. Reconociendo esta brecha, los investigadores han desarrollado métodos para separar diferentes aspectos de la calidad del audio. Por ejemplo, el método NISQA descompone la calidad del habla en cuatro dimensiones: ruido, coloración, distorsión y volumen. Otro método, MOSRA, incluye la acústica de la habitación y SNR en un setup de aprendizaje multitarea, mejorando la claridad en los resultados.

Desafíos de los Enfoques Actuales

Los métodos disponibles actualmente generalmente se enfocan en tipos específicos de audio, principalmente la voz. Aunque han avanzado, a menudo funcionan de una manera fija, sin captar cambios dinámicos durante las evaluaciones de audio. Más importante aún, se ocupan principalmente de la voz, limitando su efectividad en aplicaciones de audio más amplias.

Un Nuevo Enfoque: Evaluación de Audio Semi-Intrusiva

Para abordar estos desafíos, se sugiere un nuevo enfoque. Este método enmarca la evaluación de la calidad del audio como una tarea de predicción que combina audio y texto. En lugar de depender de una referencia de audio limpia, la técnica utiliza descripciones del audio. Por ejemplo, puede analizar y evaluar diferentes tipos de señales, como voces, música o sonidos ambientales.

Al enmarcar la tarea de esta manera, el método permite flexibilidad en la medición de diferentes aspectos del audio. Permite la predicción de varias métricas, incluyendo el puntaje de opinión promedio (MOS) y SNR, así como clasificaciones específicas para diferentes tipos de distorsión. Además, este enfoque abre la puerta a una mayor explicabilidad, permitiendo que el modelo describa las imperfecciones directamente.

El Modelo Detrás de Esto

Este método semi-intrusivo emplea un modelo específico que procesa entradas de audio y texto. Tiene tres componentes principales que trabajan juntos: un codificador de audio, un codificador de texto y un modelo de lenguaje. El codificador de audio transforma las señales de audio en vectores de tamaño fijo, mientras que el codificador de texto convierte las indicaciones textuales en representaciones vectoriales. Estos vectores se combinan luego para generar predicciones sobre la calidad del audio.

Durante el entrenamiento, el modelo aprende a predecir el siguiente trozo de texto basado en la entrada de audio y la indicación de texto. Usando una estrategia llamada "teacher forcing", el modelo puede volverse más preciso en sus predicciones.

Simulación de Datos para Entrenamiento

Un desafío en la evaluación de la calidad del audio es la falta de conjuntos de datos etiquetados. Para superar esto, los investigadores pueden crear datos simulados usando audio existente. Por ejemplo, una señal de audio limpia puede ser alterada para crear una versión distorsionada, generando pares de entrenamiento sin necesidad de numerosas evaluaciones humanas.

Para estimar el SNR, diferentes clases de audio pueden mezclarse a niveles de ruido específicos. Esto permite que el modelo aprenda a predecir el SNR en varios entornos de audio.

Entrenamiento del Modelo

Entrenar el modelo requiere parámetros definidos cuidadosamente. Usando un optimizador específico y una tasa de aprendizaje fija, el modelo se entrena durante un número establecido de épocas. El rendimiento del modelo se evalúa en conjuntos de datos separados para asegurar la confiabilidad de los resultados.

También se utilizan diferentes estrategias para etiquetar los datos. Por ejemplo, las etiquetas pueden ser redondeadas a valores enteros o al primer decimal. Cada estrategia puede impactar el rendimiento del modelo, siendo esencial probar diferentes enfoques.

Evaluar la Calidad del Audio

El método semi-intrusivo tiene como objetivo principal evaluar la calidad del audio en escenarios comúnmente encontrados en teleconferencias y streaming. Usando varios conjuntos de datos centrados en la voz para el entrenamiento, el modelo se optimiza para ofrecer resultados confiables en estos contextos.

Para evaluar su efectividad, el rendimiento del modelo se compara con baselines establecidos. Esta evaluación muestra qué tan bien el método semi-intrusivo realiza la estimación de la calidad del audio en comparación con métodos más antiguos.

Resultados y Hallazgos

Al mirar las métricas de rendimiento, los investigadores encontraron que el nuevo enfoque logra buenos resultados para conjuntos de datos de voz. Sin embargo, su rendimiento puede bajar al tratar con conjuntos de datos de audio mixto. Aun así, generalmente muestra mejora en comparación con los métodos tradicionales.

Los hallazgos destacan que el nuevo enfoque puede predecir la calidad del audio de manera efectiva, incluso superando algunas de las técnicas más establecidas. La capacidad del método para manejar diferentes clases de audio y entornos lo convierte en un paso prometedor hacia adelante en la evaluación del audio.

Estimación de SNR

Para la estimación de SNR, los resultados indican que incluir la clase de audio específica en la indicación puede mejorar significativamente el rendimiento del modelo. Cuando la indicación se enfoca en el tipo de audio, el modelo puede estimar el SNR de manera más confiable. Esto contrasta fuertemente con el uso de una indicación general, donde el rendimiento es casi aleatorio.

Conclusión

Este método semi-intrusivo para la evaluación del audio ofrece una nueva perspectiva sobre cómo evaluar la calidad del audio. Aprovecha la flexibilidad del texto y el audio para evaluar el sonido sin necesidad de una referencia limpia. Los hallazgos sugieren que este enfoque puede ser competitivo con los métodos tradicionales y podría allanar el camino para evaluaciones de audio más completas en el futuro.

Mirando hacia adelante, hay espacio para refinar esta técnica incorporando más conjuntos de datos que incluyan varios tipos de audio. Con avances continuos, este método podría llevar a una aplicación más amplia en la evaluación de la calidad del audio en diferentes plataformas y casos de uso. La investigación futura puede mejorar sus capacidades, enfocándose en desafíos de audio diversos y mejorando los procesos de evaluación en general.

Artículos similares

Recuperación de información Avanzando los sistemas de recomendación multimodal a través de una mejor extracción de características

Un estudio sobre cómo mejorar los sistemas de recomendación centrándose en técnicas de extracción de características.

Matteo Attimonelli, Danilo Danese, Angela Di Fazio

― 9 minilectura