Nueva herramienta mide la calidad del audio con análisis de video
AudioVMAF combina métricas de video para mejorar la evaluación de la calidad del audio.
― 7 minilectura
Tabla de contenidos
- La Necesidad de Métricas de Calidad de audio Precisas
- El Concepto de AudioVMAF
- Cómo Funciona AudioVMAF
- Construcción de Espectrogramas
- Mejorando la Precisión de la Predicción
- Pruebas de AudioVMAF
- Resultados y Observaciones
- Aplicaciones de AudioVMAF
- Direcciones Futuras
- Conclusión
- Fuente original
- Enlaces de referencia
La calidad del audio es clave para disfrutar de una buena experiencia multimedia. A la gente le importa cómo se escucha su sonido, sobre todo cuando están escuchando música o viendo videos. Aunque el video ocupa mucho espacio y recursos, el audio también necesita atención y puede afectar cómo percibimos la calidad general.
Con el avance de la tecnología, la demanda de audio de alta calidad va en aumento. Esto es especialmente cierto con el auge de nuevas tecnologías de audio, como el audio espacial, que requieren más datos. Por eso, encontrar nuevas formas de evaluar la calidad del audio es importante. Los métodos tradicionales requieren mucho tiempo y esfuerzo para hacer pruebas, así que hay necesidad de mejores soluciones.
Calidad de audio Precisas
La Necesidad de Métricas deLa calidad del audio y del video trabajan juntas para definir cómo disfrutamos de los multimedia. En estudios, se ha demostrado que la calidad del video suele importar más que la calidad del audio cuando los usuarios califican su experiencia. Sin embargo, a la gente a menudo le resulta más difícil notar la diferencia entre los niveles de calidad del audio. Normalmente juzgan la calidad del audio y del video uno después del otro. Por eso, tiene sentido encontrar formas de combinar estas cualidades al evaluar la experiencia multimedia general.
Esto lleva a la pregunta de si las medidas de calidad del audio pueden basarse en las medidas de calidad del video. Esta idea es la base de un nuevo sistema llamado AudioVMAF, que combina herramientas de medición de calidad de video para evaluar el audio.
El Concepto de AudioVMAF
AudioVMAF se basa en una métrica de calidad de video muy utilizada llamada VMAF, que evalúa qué tan buena se ve una imagen en comparación con un original. El objetivo aquí es crear una herramienta similar que funcione para el audio al mirar Espectrogramas de audio, que proporcionan una representación visual del sonido.
En términos más simples, piensa en un espectrograma como una foto del sonido. Al analizar estas “fotos”, podemos predecir qué tan bueno es el audio. Este sistema está diseñado para medir la calidad del audio de manera clara y sencilla.
Cómo Funciona AudioVMAF
Para medir la calidad del audio con AudioVMAF, se siguen algunos pasos. Primero, se extrae el audio de los archivos de video. Este audio se transforma en espectrogramas. Estos espectrogramas crean representaciones visuales de las señales de audio, que se pueden introducir en el sistema VMAF.
- Extracción de Audio: Se extrae el audio de los videos, normalmente en formatos como MP4.
- Creación de Espectrogramas: Luego, se procesa el audio para generar imágenes de espectrogramas que proporcionan una vista detallada de la frecuencia y el tiempo del audio.
- Uso de VMAF: Las imágenes generadas se analizan utilizando el sistema VMAF establecido, que produce una puntuación que indica la calidad del audio.
Construcción de Espectrogramas
Crear estas imágenes es una parte importante del proceso. El equipo detrás de AudioVMAF utiliza técnicas específicas para asegurar que los espectrogramas proporcionen información útil.
- Análisis de Audio: Las señales de audio se descomponen en diversas bandas de frecuencia. Esta descomposición permite un análisis profundo de cómo se comportan los diferentes sonidos.
- Alineación de Frames: El audio también se alinea con la tasa de frames del video para asegurar la sincronización entre lo que se ve y lo que se escucha.
- Representación de Espectrogramas: Cada señal de audio produce una imagen que representa visualmente sus características. Este aspecto visual es esencial para hacer las mediciones.
Mejorando la Precisión de la Predicción
Un hallazgo interesante durante el desarrollo fue que replicar las imágenes de espectrogramas para ciertas frecuencias de audio podría llevar a mejores predicciones de calidad de audio. Esto significa crear copias adicionales de la misma imagen para proporcionar más puntos de datos para el análisis.
Además, los colores utilizados en las imágenes de espectrogramas también juegan un papel en cuán precisamente AudioVMAF puede evaluar la calidad. Convertir la información del sonido en imágenes de color permite un análisis mejor en comparación con usar imágenes en escala de grises más simples.
Pruebas de AudioVMAF
Para ver qué tan bien funciona AudioVMAF, se comparó con métricas de calidad de audio tradicionales que ya están en uso. Una de estas métricas es ViSQOL, que fue diseñada para evaluar la calidad de audio utilizando diferentes métodos.
En pruebas con varios ejemplos de audio, se demostró que AudioVMAF funcionaba mejor que muchas de las herramientas existentes. Los resultados indicaron que podía medir con precisión la calidad del audio en diferentes contextos, ya sea en voz, música o una mezcla de ambos.
Resultados y Observaciones
Cuando se evaluó contra otros sistemas, AudioVMAF mostró consistentemente una fuerte capacidad para predecir la calidad del audio. Fue especialmente efectivo al identificar diferencias de calidad en audio que había sido comprimido a bitrates más bajos, lo que puede ser particularmente difícil de medir.
- Análisis Comparativo: AudioVMAF se puso contra métricas de calidad de audio establecidas para ver cómo se desempeñaba. Generalmente, obtuvo puntuaciones más altas, mostrando su efectividad.
- Entendiendo la Calidad: La herramienta proporcionó una comprensión clara de cómo diferentes muestras de audio puntuaban en calidad, facilitando la comparación de varios codecs de audio.
Aplicaciones de AudioVMAF
Los resultados de AudioVMAF ofrecen nuevas oportunidades para la evaluación de la calidad del audio. Se puede usar en diferentes áreas como:
- Servicios de Streaming: Plataformas que ofrecen contenido de audio y video pueden usar esta herramienta para asegurarse de que están brindando experiencias de alta calidad.
- Radiodifusión: Empresas de televisión y radio pueden implementar AudioVMAF para mantener altos estándares de audio en sus transmisiones.
- Producción de Audio: Los estudios pueden utilizar este sistema para evaluar la calidad de sus grabaciones de manera más eficiente.
Direcciones Futuras
Aunque AudioVMAF ha demostrado ser una herramienta prometedora, hay áreas para mejorar. Los desarrollos futuros pueden incluir:
- Mejor Soporte Multicanal: Mejorar su capacidad para evaluar la calidad del audio en configuraciones multicanal.
- Mayor Sensibilidad a Bitrates Altos: Hacer que el sistema sea aún más preciso a bitrates más altos donde la calidad del audio puede ser particularmente sutil.
- Integración de Retroalimentación de Usuarios: Incorporar la retroalimentación de usuarios de pruebas de escucha para refinar continuamente la precisión de las predicciones.
Conclusión
En conclusión, AudioVMAF representa un avance significativo en la medición de la calidad del audio. Al usar ideas de métricas de calidad de video, crea una herramienta poderosa para evaluar el sonido de manera efectiva. La combinación de análisis de espectrograma, métodos de replicación y representación visual contribuye a un enfoque sólido para evaluar el audio. Este sistema tiene el potencial de mejorar las evaluaciones de calidad multimedia y mejorar la experiencia del usuario en varias plataformas. A medida que la investigación continúa, AudioVMAF podría allanar el camino para mediciones de calidad audiovisual más integradas, proporcionando una comprensión más clara de cómo experimentamos el sonido y la vista juntos.
Título: AudioVMAF: Audio Quality Prediction with VMAF
Resumen: Video Multimethod Assessment Fusion (VMAF) [1], [2], [3] is a popular tool in the industry for measuring coded video quality. In this study, we propose an auditory-inspired frontend in existing VMAF for creating videos of reference and coded spectrograms, and extended VMAF for measuring coded audio quality. We name our system AudioVMAF. We demonstrate that image replication is capable of further enhancing prediction accuracy, especially when band-limited anchors are present. The proposed method significantly outperforms all existing visual quality features repurposed for audio, and even demonstrates a significant overall improvement of 7.8% and 2.0% of Pearson and Spearman rank correlation coefficient, respectively, over a dedicated audio quality metric (ViSQOL-v3 [4]) also inspired from the image domain.
Autores: Arijit Biswas, Harald Mundt
Última actualización: 2023-08-07 00:00:00
Idioma: English
Fuente URL: https://arxiv.org/abs/2308.03437
Fuente PDF: https://arxiv.org/pdf/2308.03437
Licencia: https://creativecommons.org/licenses/by/4.0/
Cambios: Este resumen se ha elaborado con la ayuda de AI y puede contener imprecisiones. Para obtener información precisa, consulte los documentos originales enlazados aquí.
Gracias a arxiv por el uso de su interoperabilidad de acceso abierto.
Enlaces de referencia
- https://netflixtechblog.com/toward-a-practical-perceptual-video-quality-metric-653f208b9652
- https://netflixtechblog.com/toward-a-better-quality-metric-for-the-video-community-7ed94e752a30
- https://medium.com/netflix-techblog/vmaf-the-journey-continues-44b51ee9ed12
- https://netflixtechblog.com/engineering-a-studio-quality-experience-with-high-quality-audio-at-netflix-eaa0b6145f32
- https://www.ffmpeg.org/
- https://github.com/Netflix/vmaf/
- https://www.mathworks.com/help/matlab/ref/hsv.html/
- https://github.com/google/visqol/
- https://github.com/utlive/avqa/