Métodos Inovadores para Avaliar a Qualidade do Áudio
Novas técnicas que pegam emprestado da processamento de imagem melhoram a avaliação da qualidade de áudio.
― 7 min ler
Índice
A qualidade do áudio é super importante pra gente curtir música e sons. Mas medir quão bom é o áudio pode ser complicado. Nesse artigo, vamos ver uma nova maneira de avaliar a qualidade do áudio usando ferramentas que normalmente avaliam imagens. Representando o áudio como Espectrogramas, que mostram visualmente as frequências sonoras ao longo do tempo, nosso objetivo é encontrar métodos melhores pra entender a qualidade do áudio.
Contexto
Tradicionalmente, medir a qualidade do áudio depende de métodos básicos ou modelos complicados que são difíceis de entender. Pra fala, até tem algumas ferramentas disponíveis, mas a avaliação da qualidade musical muitas vezes fica pra trás. Os métodos que usamos geralmente focam em propriedades físicas, como a quantidade de ruído presente no áudio.
Por outro lado, a área de imagens desenvolveu vários modelos perceptuais pra ajudar a medir a qualidade das imagens. Esses métodos consideram como os humanos percebem imagens, tornando-os mais eficazes em certos contextos. Tem motivos pra acreditar que conceitos semelhantes podem ser aplicados à avaliação da qualidade do áudio.
Ligando Processamento Auditivo e Visual
Pesquisas mostraram que as maneiras como nossos cérebros processam som e imagens têm semelhanças. Por exemplo, ambos os sistemas conseguem se ajustar a fatores como brilho nas imagens e volume nos sons. Essas características comuns podem nos ajudar a criar maneiras melhores de medir a qualidade do áudio pegando ideias do processamento de imagem.
Um conceito chave é a Normalização Divisiva, que se relaciona com como os sistemas visuais e auditivos funcionam. Em imagens, isso ajudou a entender a estrutura e a qualidade das imagens. Assim, isso pode também melhorar as métricas de qualidade do áudio, considerando como os sons são processados de uma maneira semelhante.
Usando Espectrogramas
Pra conectar as métricas de qualidade de áudio e de imagem, podemos usar espectrogramas. Essas imagens representam sinais de áudio como uma grade 2D, onde um eixo é o tempo e o outro é a frequência. Cada ponto na grade mostra quão forte é o som em um momento e frequência específicos, parecido com como as imagens mostram cor e brilho.
Tratando o áudio dessa forma, podemos aplicar modelos projetados para imagens pra avaliar a qualidade do áudio. Esse método pode nos permitir aproveitar o conhecimento já existente no processamento de imagens.
Abordagem Proposta
O primeiro passo na nossa abordagem é testar se métricas de qualidade de imagem conhecidas podem performar melhor do que métricas de áudio projetadas especialmente. Usamos um conjunto de dados com clipes de música, testando como as métricas se correlacionam com as avaliações humanas da qualidade do áudio. As avaliações humanas são cruciais, já que refletem experiências reais.
Também ajustamos uma das métricas de qualidade de imagem pra considerar como o som se comporta. Isso envolve fazer ajustes com base nos fatores que afetam a percepção do áudio, enfatizando as características que mais importam.
Métricas de Qualidade
As métricas de qualidade visam quantificar quão similares ou diferentes são dois exemplos de áudio com base na percepção humana. Pra isso, podemos projetar os dados de áudio em um espaço significativo e determinar quão distantes dois pedaços de áudio estão um do outro.
Métricas de Qualidade de Imagem
As métricas de qualidade de imagem geralmente caem em duas categorias. A primeira é a similaridade estrutural, que compara a estrutura geral das imagens. A segunda é a visibilidade de erros, que mede quão visíveis são falhas nas imagens para quem está vendo.
Por exemplo, a Multi-Scale Structural SIMilarity (MS-SSIM) mede a similaridade estrutural em diferentes níveis de detalhe. Outra métrica, a Normalised Laplacian Pyramid Distance (NLPD), avalia quão visíveis são os erros incorporando o processamento biológico que encontramos no nosso sistema visual. Esse processo também pode ser importante pra avaliar a qualidade do áudio.
Métricas de Qualidade de Áudio
Existem várias métricas de qualidade de áudio disponíveis, mas elas podem variar em eficácia. A Fréchet Audio Distance (FAD) é uma métrica usada pra avaliar áudio gerado comparando com referências de alta qualidade. O Virtual Speech Quality Objective Listener (ViSQOL) avalia a qualidade perceptual do áudio analisando espectrogramas.
Essas métricas são complementadas por modelos de aprendizado baseados em dados de áudio passados pra prever como os humanos percebem a qualidade do áudio.
Adaptando NLPD para Áudio
A Normalised Laplacian Pyramid Distance (NLPD) é um ótimo exemplo de como adaptar métricas de imagem existentes pra avaliação de áudio. O NLPD envolve um processo de compressão e codificação, quebrando uma imagem em vários níveis de detalhe. Ao otimizar essa métrica para áudio, podemos capturar características importantes relevantes à qualidade do som.
Essa adaptação requer entender como os sinais de som e imagem interagem com certos processos. Para o áudio, nosso objetivo é aprender pesos que ajudem a moldar como interpretamos o som, permitindo criar métricas que reflitam a percepção humana de forma precisa.
Testando o Método Proposto
Pra avaliar nosso método, reunimos um conjunto de dados de clipes de música que incluem várias distorções de áudio. Cada clipe foi avaliado por pessoas pra determinar sua qualidade. Esse conjunto de dados fornece uma base pra testar quão bem as métricas de qualidade de imagem se transferem pra avaliação da qualidade de áudio.
Seguimos um processo de treinamento e teste onde avaliamos múltiplos clipes de áudio. Cada clipe é processado em espectrogramas, e aplicamos as métricas pra avaliar a qualidade com base no feedback humano.
Resultados
Os resultados mostraram uma tendência surpreendente. As métricas de qualidade de imagem, especialmente as que adaptamos, muitas vezes superaram as métricas de áudio tradicionais na maioria das distorções. No entanto, em casos específicos, como filtros passa-baixa, as métricas de áudio performaram um pouco melhor.
O ajuste do NLPD para áudio revela que ele pode fornecer insights valiosos sobre a qualidade do áudio. As correlações com as avaliações humanas indicam que adaptar métricas de imagem pode beneficiar a avaliação do áudio de maneiras significativas.
Discussão
Analisar os resultados ressalta o potencial de usar métricas de qualidade de imagem pra avaliação de áudio. Esse estudo destaca a importância de explorar mais a relação entre o processamento visual e auditivo.
O processo de normalização divisiva aumenta significativamente a precisão das métricas quando usadas pra áudio, refletindo como nossos cérebros interpretam som. Contudo, existem variações em relação ao tipo de distorção, sugerindo que uma investigação mais profunda é necessária pra entender melhor essas relações.
Direções Futuras
Reconhecemos a necessidade de mais conjuntos de dados de acesso aberto que foquem na avaliação da qualidade do áudio, semelhante ao que existe na área de imagem. Essa expansão é crucial pra melhorar como a qualidade do áudio é avaliada e entendida.
Conforme avançamos, planejamos pesquisar como a normalização divisiva pode ser adaptada ainda mais para sinais de áudio. Isso pode envolver criar diferentes filtros para tempo e frequência, melhorando a eficácia do modelo.
Também pretendemos usar as novas métricas desenvolvidas em modelos generativos, visando amostras de áudio que imitem sons de alta qualidade com menos distorções perceptuais. Além disso, vamos explorar como diferentes metodologias de treinamento podem guiar melhor os participantes na avaliação da qualidade do áudio.
Ao refinar nossa abordagem pra medir a qualidade do áudio, pretendemos melhorar como os modelos de áudio se alinham com as expectativas humanas. Esse trabalho pode aumentar a confiança e a explicabilidade dos resultados produzidos por modelos de áudio generativos, beneficiando, no final, toda a comunidade de áudio.
Título: What You Hear Is What You See: Audio Quality Metrics From Image Quality Metrics
Resumo: In this study, we investigate the feasibility of utilizing state-of-the-art image perceptual metrics for evaluating audio signals by representing them as spectrograms. The encouraging outcome of the proposed approach is based on the similarity between the neural mechanisms in the auditory and visual pathways. Furthermore, we customise one of the metrics which has a psychoacoustically plausible architecture to account for the peculiarities of sound signals. We evaluate the effectiveness of our proposed metric and several baseline metrics using a music dataset, with promising results in terms of the correlation between the metrics and the perceived quality of audio as rated by human evaluators.
Autores: Tashi Namgyal, Alexander Hepburn, Raul Santos-Rodriguez, Valero Laparra, Jesus Malo
Última atualização: 2023-08-30 00:00:00
Idioma: English
Fonte URL: https://arxiv.org/abs/2305.11582
Fonte PDF: https://arxiv.org/pdf/2305.11582
Licença: https://creativecommons.org/licenses/by/4.0/
Alterações: Este resumo foi elaborado com a assistência da AI e pode conter imprecisões. Para obter informações exactas, consulte os documentos originais ligados aqui.
Obrigado ao arxiv pela utilização da sua interoperabilidade de acesso aberto.