Simple Science

Ciencia de vanguardia explicada de forma sencilla

# Ingeniería Eléctrica y Ciencia de Sistemas# Procesado de Audio y Voz

Avances en tecnología de codificación de audio

Nuevos métodos mejoran la calidad de audio mientras reducen el uso de datos.

― 6 minilectura


Avances en CodificaciónAvances en Codificaciónde Audio de NuevaGeneraciónbajas.calidad de audio a tasas de datos másMétodos revolucionarios aumentan la
Tabla de contenidos

La codificación de audio es el proceso de convertir el sonido en un formato digital para su almacenamiento o transmisión. A lo largo de los años, esta tecnología ha avanzado bastante para mejorar la calidad del sonido mientras se reduce la cantidad de datos necesarios. El objetivo es mantener lo que los oyentes perciben como una calidad de audio alta, incluso a tasas de datos más bajas.

El papel de la Codificación Predictiva Lineal

Un método clave usado en la codificación de audio es la Codificación Predictiva Lineal (LPC). LPC ayuda a minimizar la cantidad de información necesaria para representar el sonido al predecir muestras de sonido futuras basadas en las pasadas. Esto es efectivo porque muchos sonidos, especialmente el habla, se pueden predecir con bastante precisión. Un desarrollo derivado de LPC es un método llamado Moldeo de Ruido en el Dominio de Frecuencia (FDNS), que se centra en ajustar el sonido en rangos de frecuencia específicos para mejorar la calidad.

Desafíos en la codificación de audio

Aunque técnicas como FDNS y Moldeo Temporal de Ruido (TNS) han sido útiles, también presentan desafíos. Por ejemplo, el TNS tradicional puede llevar a un problema conocido como aliasing en el dominio del tiempo, que crea ruido no deseado durante la reproducción. Este asunto se vuelve particularmente notorio al codificar sonidos transitorios, como el ataque rápido de una nota musical.

Un nuevo enfoque: Moldeo de Ruido Unificado

Para enfrentar estos desafíos, se ha introducido un nuevo método llamado Moldeo de Ruido Unificado (UNS). Este enfoque combina FDNS y una versión compleja de TNS en un espacio matemático diferente conocido como el dominio de la Transformada de Fourier Discreta (DFT). Al usar este método, el ruido no deseado que a menudo surge del aliasing en el dominio del tiempo se puede minimizar de manera efectiva.

Ventajas del dominio DFT

Usar DFT significa que el proceso puede reducir la complejidad en el sistema de codificación de audio. En lugar de usar cálculos adicionales para ir y volver entre diferentes formatos, el enfoque DFT permite operaciones más sencillas. Esto puede llevar a una reproducción más clara del sonido, particularmente durante segmentos de audio más desafiantes.

La importancia de la cuantización de fase

En este nuevo marco, la cuantización juega un papel crucial. La cuantización es el método de mapear un gran conjunto de valores a uno más pequeño, lo cual es esencial para codificar datos de audio de manera eficiente. El método de cuantización utilizado aquí es un proceso modificado conocido como Cuantización Polar, que incluye un ajuste para el contraste de fase. Este ajuste es crucial porque permite una mejor representación de las frecuencias de audio.

Cómo funciona el control de contraste de fase

El control de contraste de fase (PCC) asigna bits de manera óptima según las características de la señal de audio. Monitorea el envolvente de frecuencia, que es una medida de cuánta energía de sonido está presente en diferentes frecuencias. Haciendo esto, el sistema puede asignar más recursos (como bits) a frecuencias importantes y reducirlos para las menos significativas.

Implementación del sistema de codificación

El sistema de codificación de audio usando este método opera en varios pasos:

  1. La señal de audio se divide en segmentos para análisis.
  2. Se aplica la DFT a estos segmentos para transformar los datos de audio.
  3. Se implementa el proceso FDNS para dar forma a las frecuencias de sonido de acuerdo.
  4. Se utiliza el TNS complejo para reducir la información temporal, mejorando aún más la calidad del sonido.
  5. Finalmente, la salida cuantizada se prepara para transmisión o almacenamiento.

Resultados de las pruebas

Para evaluar la efectividad de este nuevo sistema de codificación de audio, se realizaron varias pruebas. Estas pruebas compararon el nuevo sistema con métodos de codificación de audio establecidos. Las medidas objetivas proporcionaron información sobre lo bien que funcionaba el nuevo sistema en términos de calidad de sonido.

Medidas objetivas

Algunas medidas clave incluyeron la Relación de Señal a Ruido Segmental (segSNR), que evalúa la fuerza de la señal de audio deseada en relación con el ruido de fondo, y la Evaluación Perceptual de la Calidad del Audio (PEAQ), que mide la calidad del audio subjetiva basada en la percepción humana.

Pruebas de escucha

Además de las medidas objetivas, se realizaron pruebas de escucha con oyentes experimentados evaluando la calidad del audio. Compararon la salida del nuevo sistema con sistemas existentes. Los resultados mostraron que el nuevo método ofrecía mejor calidad de sonido a tasas de bits más bajas para diferentes tipos de audio, incluyendo habla y música.

Resumen y conclusión

En resumen, la introducción del Moldeo de Ruido Unificado y la Cuantización Polar con Control de Contraste de Fase representa un paso significativo en la tecnología de codificación de audio. Este enfoque no solo aborda los desafíos del aliasing en el dominio del tiempo, sino que también mejora la calidad del sonido mientras usa menos recursos de datos.

Los resultados de las medidas objetivas y las pruebas de escucha indican que este nuevo sistema de codificación de audio puede ofrecer una calidad de audio superior en comparación con los métodos tradicionales, particularmente a tasas de datos más bajas. Como resultado, tiene un gran potencial para aplicaciones donde la transmisión de audio eficiente es crucial, como servicios de streaming y telecomunicaciones.

Al equilibrar efectivamente la calidad del sonido y la compresión de datos, el futuro de la codificación de audio parece más eficiente y potente, allanando el camino para experiencias de audio más claras y ricas en varias plataformas.

Fuente original

Título: Audio coding with unified noise shaping and phase contrast control

Resumen: Over the past decade, audio coding technology has seen standardization and the development of many frameworks incorporated with linear predictive coding (LPC). As LPC reduces information in the frequency domain, LP-based frequency-domain noise-shaping (FDNS) was previously proposed. To code transient signals effectively, FDNS with temporal noise shaping (TNS) has emerged. However, these mainly operated in the modified discrete cosine transform domain, which essentially accompanies time domain aliasing. In this paper, a unified noise-shaping (UNS) framework including FDNS and complex LPC-based TNS (CTNS) in the DFT domain is proposed to overcome the aliasing issues. Additionally, a modified polar quantizer with phase contrast control is proposed, which saves phase bits depending on the frequency envelope information. The core coding feasibility at low bit rates is verified through various objective metrics and subjective listening evaluations.

Autores: Byeongho Jo, Seungkwon Beack, Taejin Lee

Última actualización: 2023-04-17 00:00:00

Idioma: English

Fuente URL: https://arxiv.org/abs/2304.08076

Fuente PDF: https://arxiv.org/pdf/2304.08076

Licencia: https://creativecommons.org/licenses/by-sa/4.0/

Cambios: Este resumen se ha elaborado con la ayuda de AI y puede contener imprecisiones. Para obtener información precisa, consulte los documentos originales enlazados aquí.

Gracias a arxiv por el uso de su interoperabilidad de acceso abierto.

Artículos similares