Simple Science

Ciencia de vanguardia explicada de forma sencilla

# Ingeniería Eléctrica y Ciencia de Sistemas# Sonido# Procesado de Audio y Voz

Actualizando las métricas de calidad de sonido para mejor precisión

Mejorando los métricas de calidad de sonido usando nuevos métodos de cálculo de loudness.

― 6 minilectura


Mejorando las métricas deMejorando las métricas desonidolas métricas de calidad de sonido.Nuevos métodos mejoran la precisión de
Tabla de contenidos

Las métricas de calidad de sonido (SQMs) como la agudeza, rugosidad y fuerza de fluctuación nos ayudan a entender cómo percibimos diferentes sonidos. Estas métricas son importantes en muchas áreas, incluyendo diseño de productos, producción musical y análisis del entorno. Para calcular estas métricas, normalmente nos basamos en métodos para medir la sonoridad, usando filtros auditivos que imitan cómo funcionan nuestros oídos.

En los últimos años, ha habido actualizaciones en cómo se calcula la sonoridad, lo que significa que los modelos que usamos para las SQMs también necesitan ser actualizados. Tradicionalmente, el método de Zwicker ha sido el estándar para el cálculo de la sonoridad, pero los nuevos métodos introducidos, como el método de Moore-Glasberg, requieren cambios en nuestros modelos de SQM para asegurarnos de que sigan siendo precisos.

¿Por qué actualizar las métricas de calidad de sonido?

Los métodos para calcular la sonoridad han evolucionado. El método de Zwicker, que estaba bien establecido, ha sido revisado oficialmente. El método de Moore-Glasberg es útil para sonidos estacionarios pero no tan efectivo para sonidos que cambian con el tiempo. Esta brecha presenta desafíos para crear modelos de SQM precisos para métricas como la rugosidad y la fuerza de fluctuación.

Un filtro auditivo típico usado en el método de Moore-Glasberg no tiene las mismas respuestas que otros métodos, haciendo difícil derivar modelos de SQM precisos. Por lo tanto, proponemos usar bancos de filtros en el dominio del tiempo, particularmente bancos de filtros gammatone y gammachirp, como solución.

Métodos propuestos para el cálculo de la sonoridad

Para calcular la sonoridad, sugerimos reemplazar los métodos tradicionales con bancos de filtros auditivos gammatone o gammachirp en el dominio del tiempo. Este cambio nos permite calcular la sonoridad de manera más efectiva y alinearnos mejor con los estándares actualizados en ISO 532-2.

El método propuesto se enfoca en:

  1. Filtrar el sonido de entrada para simular cómo funcionan nuestros oídos.
  2. Dividir el sonido en canales de frecuencia usando los filtros elegidos.
  3. Calcular la sonoridad específica analizando la salida de estos filtros y sumando los resultados.

Bancos de filtros auditivos

Banco de filtros gammatone

El banco de filtros gammatone imita cómo nuestros oídos perciben el sonido. Utiliza una técnica de filtrado específica que nos permite analizar los componentes de frecuencia del sonido. Este enfoque ayuda a entender cómo interactúan los diferentes sonidos y cómo son percibidos según su contenido de frecuencia.

Banco de filtros gammachirp

El banco de filtros gammachirp mejora el gammatone al abordar las diferencias en la respuesta auditiva según los niveles de presión sonora. Captura de manera efectiva cómo escuchamos los sonidos, especialmente con diferentes niveles de sonoridad.

Cálculo de sonoridad a partir de la excitación

Una vez que hemos procesado el sonido a través del banco de filtros, podemos simular cómo responde el oído interno al sonido. Esto se logra a través de una serie de pasos:

  1. Rectificar la salida de los filtros para eliminar valores negativos.
  2. Elevar al cuadrado los resultados para enfatizar los sonidos más fuertes.
  3. Aplicar un filtro de paso bajo para suavizar la respuesta a lo largo del tiempo.

La salida nos da una imagen más clara de la sonoridad, basada en cómo reacciona nuestro sistema auditivo al sonido.

Métricas de calidad de sonido

Agudeza

La agudeza mide el brillo o claridad de un sonido. El modelo propuesto para la agudeza toma en cuenta la sonoridad del sonido que se analiza. Al calcular el contenido de frecuencia promedio, podemos evaluar la agudeza de manera más precisa en comparación con modelos anteriores.

Rugosidad

La rugosidad se refiere a la textura percibida del sonido y su fluctuación. El modelo propuesto para la rugosidad analiza las variaciones en la sonoridad a lo largo del tiempo y cómo se correlacionan con la percepción humana. Este modelo considera factores como la frecuencia de modulación y los niveles de presión sonora para ofrecer una métrica de rugosidad precisa.

Fuerza de fluctuación

La fuerza de fluctuación mide qué tan rápido cambia la sonoridad del sonido. El modelo propuesto para esta métrica refleja el enfoque utilizado para la rugosidad, pero se centra en la frecuencia de modulación que crea la sensación de fluctuación. Esto ayuda a evaluar con precisión cuán dinámico se percibe un sonido.

Evaluación de los modelos propuestos

Para validar nuestros métodos propuestos, comparamos la sonoridad, agudeza, rugosidad y fuerza de fluctuación calculadas contra datos humanos establecidos. Los resultados indicaron que nuestros nuevos modelos tuvieron errores más pequeños al predecir estas métricas, demostrando su efectividad.

Evaluación de la sonoridad

Usando sonidos de diferentes frecuencias, calculamos la sonoridad con nuestro método y la comparamos con los resultados del método de Moore-Glasberg. Los resultados fueron en gran parte consistentes, validando la precisión de nuestro cálculo de sonoridad propuesto.

Evaluación de la agudeza

Ambas versiones de nuestro modelo de agudeza propuesto mostraron mejoras en comparación con modelos anteriores. Las métricas de agudeza de nuestros modelos se alinearon estrechamente con las percepciones humanas, haciéndolas más confiables para aplicaciones prácticas.

Evaluación de la rugosidad

Los modelos de rugosidad propuestos superaron a los modelos anteriores al evaluar varias frecuencias de modulación. Los resultados coincidieron estrechamente con las percepciones humanas de la rugosidad, subrayando la precisión del modelo.

Evaluación de la fuerza de fluctuación

Evaluaciones similares para la fuerza de fluctuación revelaron que nuestros modelos propuestos proporcionaron mejores estimaciones en comparación con modelos anteriores, especialmente en lo que respecta a diferentes frecuencias de modulación y niveles de presión sonora.

Conclusión

En resumen, los métodos propuestos para calcular la sonoridad y las métricas de calidad de sonido asociadas están más alineados con la comprensión actual de la percepción auditiva. Al utilizar bancos de filtros gammatone y gammachirp en el dominio del tiempo, podemos mejorar la precisión de las métricas de agudeza, rugosidad y fuerza de fluctuación.

El trabajo futuro se centrará en refinar estos modelos para manejar mejor los sonidos que cambian con el tiempo, asegurándonos de seguir mejorando los métodos existentes para medir la calidad del sonido.

Fuente original

Título: Computational models of sound-quality metrics using method for calculating loudness with gammatone/gammachirp auditory filterbank

Resumen: Sound-quality metrics (SQMs), such as sharpness, roughness, and fluctuation strength, are calculated using a standard method for calculating loudness (Zwicker method, ISO532B, 1975). Since ISO 532 had been revised to contain the Zwicker method (ISO 5321) and Moore-Glasberg method (ISO 532-2) in 2017, the classical computational SQM model should also be revised in accordance with these revisions. A roex auditory filterbank used with the Moore-Glasberg method is defined separately in the frequency domain not to have impulse responses. It is therefore difficult to construct a computational SQM model, e.g., the classical computational SQM model, on the basis of ISO 532-2. We propose a method for calculating loudness using the time-domain gammatone or gammachirp auditory filterbank instead of the roex auditory filterbank to solve this problem. We also propose three computational SQM models based on ISO 532-2 to use with the proposed loudness method. We evaluated the root-mean squared errors (RMSEs) of the calculated loudness with the proposed and Moore-Glasberg methods. We then evaluated the RMSEs of the calculated SQMs with the proposed method and human data of SQMs. We found that the proposed method can be considered as a time-domain method for calculating loudness on the basis of ISO 532-2 because the RMSEs are very small. We also found that the proposed computational SQM models can effectively account for the human data of SQMs compared with the classical computational SQM model in terms of RMSEs.

Autores: Takuto Isoyama, Shunsuke Kidani, Masashi Unoki

Última actualización: 2023-05-18 00:00:00

Idioma: English

Fuente URL: https://arxiv.org/abs/2305.13213

Fuente PDF: https://arxiv.org/pdf/2305.13213

Licencia: https://creativecommons.org/publicdomain/zero/1.0/

Cambios: Este resumen se ha elaborado con la ayuda de AI y puede contener imprecisiones. Para obtener información precisa, consulte los documentos originales enlazados aquí.

Gracias a arxiv por el uso de su interoperabilidad de acceso abierto.

Más de autores

Artículos similares