Abordando a Guerra da Loudness com Redes De-limiter
Nova tecnologia tem como objetivo restaurar a qualidade da música que se perdeu na compressão de volume.
― 6 min ler
Índice
Na indústria da música, tem uma parada chamada guerra da loudness. Com o passar dos anos, muitos produtores e engenheiros tentaram deixar a música o mais alta possível. A ideia é simples: música mais alta soa melhor pra muita gente. Mas, essa prática geralmente acaba diminuindo a Faixa Dinâmica da música, ou seja, as diferenças entre as partes calmas e as altas ficam menos percebidas.
Pra alcançar essa loudness, engenheiros de masterização frequentemente usam limitadores. Esses são ferramentas que comprimem o som, cortando as partes mais quietas e aumentando as mais altas. Embora esse método realmente faça uma música soar mais alta, também pode causar fadiga auditiva ou até perda de audição pra quem escuta. Muita gente na comunidade musical já levantou preocupações de que aumentar a loudness dessa forma acaba prejudicando a qualidade da música. Estudos mostraram que músicas super comprimidas podem soar pior do que músicas sem compressão ou com só um pouco de compressão.
Apesar desses alertas, a tendência continua. Muitos artistas ainda acreditam que música mais alta é melhor. Em plataformas de streaming, você pode notar que muitas músicas soam parecidas em volume. Isso se chama normalização de loudness e é uma forma de nivelar a experiência de ouvir pra todo mundo.
O Desafio de De-limitar a Música
Quando a música é comprimida com um limitador, as mudanças que ele faz não podem ser desfeitas completamente. Isso apresenta um desafio considerável pra tentar restaurar a música ao seu som original. Porém, com o aumento da inteligência artificial e redes neurais profundas, pesquisadores acreditam que essas tecnologias poderiam ajudar no esforço de "de-limitar" a música.
A ideia é criar um sistema que possa pegar uma música fortemente comprimida e estimar como seria a versão não comprimida. Fazendo isso, podemos tentar recuperar a qualidade original do som que a música tinha antes de ser alterada.
Apresentando as Redes De-limitadoras de Música
É aqui que entram as redes de-limitadoras de música. Essas redes podem analisar músicas fortemente comprimidas e trabalhar pra recriar como seria o som original. Isso é feito através de um método chamado inversão de ganho amostral, que estima quanto o som original deve ser ajustado pra voltar à sua forma não comprimida.
Pra treinar essas redes, foi criado um grande conjunto de dados que inclui muitos exemplos de músicas comprimidas junto com suas versões originais. Esse conjunto de dados permite que as redes aprendam com exemplos do mundo real e melhorem sua capacidade de restaurar a qualidade do som das músicas comprimidas.
Vantagens da Abordagem De-limitadora
Existem várias vantagens em usar essas redes de-limitadoras. Primeiro, ao focar em ajustes amostrais ao invés de gerar sons completamente novos, as redes podem evitar criar artefatos audíveis, que são ruídos indesejados que podem surgir quando a música é alterada.
Outra vantagem é que o sistema pode funcionar sem introduzir erros de fase. Erros de fase ocorrem quando diferentes partes de um som chegam aos ouvidos do ouvinte em momentos ligeiramente diferentes, o que pode criar um som impreciso ou confuso. Ao evitar esses erros, as redes de-limitadoras podem produzir um som mais claro e preciso.
As redes também são projetadas pra serem leves. Isso significa que podem rodar de forma rápida e eficiente, o que é importante pra aplicações em tempo real, como streaming de música ou uso em produção.
O Papel do Conjunto de Dados
O conjunto de dados usado pra treinar as redes de-limitadoras consiste em vários segmentos de música que foram processados com limitadores. Esses dados de treinamento foram cuidadosamente elaborados pra garantir uma ampla variedade de estilos e características musicais. Ao treinar nesse conjunto de dados, as redes aprendem a reconhecer os padrões e mudanças que ocorrem quando a música é comprimida e como reverter esses efeitos.
Avaliando o Desempenho
Quando testadas, as redes de-limitadoras mostraram resultados impressionantes. Elas demonstraram a capacidade de restaurar a música a uma versão de alta qualidade que se aproximava mais do original. Métricas específicas foram usadas pra medir o desempenho, como o índice de razão fonte-para-distorção invariável à escala (SI-SDR), que ajuda a quantificar o quanto o som restaurado se parece com o original.
As redes também foram avaliadas pra ver como se saíram em diferentes seções da música, como vocais, bateria e baixo. Descobriu-se que as redes eram particularmente boas em restaurar o som dos tambores, que muitas vezes sofrem mais com a compressão.
Aplicações no Mundo Real
As aplicações potenciais pra essas redes de-limitadoras são vastas. Pra os ouvintes, essa tecnologia poderia levar a uma melhor experiência de áudio, já que poderiam curtir músicas que soam mais próximas do jeito que foram originalmente concebidas. Pra os produtores musicais, ter acesso a um de-limitador poderia permitir que trabalhassem com samples que mantêm a qualidade original.
Isso também poderia ser benéfico pra serviços de streaming, já que poderiam implementar essas redes pra fornecer uma experiência de audição mais consistente e agradável em diferentes músicas.
Conclusão
A guerra da loudness tem sido uma questão significativa na indústria musical por muitos anos. Usando tecnologias avançadas como redes de-limitadoras, há esperança de uma solução que possa restaurar a qualidade da música que foi perdida devido à compressão excessiva.
Através do uso de um conjunto de dados cuidadosamente construído e técnicas de processamento inovadoras, essas redes oferecem um jeito de trazer de volta a riqueza e a faixa dinâmica da música, tornando a audição uma experiência mais agradável. À medida que essa tecnologia avança, ela pode abrir caminho para novos padrões de como a música é produzida, masterizada e apreciada.
Em resumo, as redes de-limitadoras representam um desenvolvimento promissor pra enfrentar os desafios impostos pela guerra da loudness. Trabalhando pra restaurar a qualidade sonora original, essas redes podem significativamente melhorar tanto a produção musical quanto as experiências de audição no futuro.
Título: Music De-limiter Networks via Sample-wise Gain Inversion
Resumo: The loudness war, an ongoing phenomenon in the music industry characterized by the increasing final loudness of music while reducing its dynamic range, has been a controversial topic for decades. Music mastering engineers have used limiters to heavily compress and make music louder, which can induce ear fatigue and hearing loss in listeners. In this paper, we introduce music de-limiter networks that estimate uncompressed music from heavily compressed signals. Inspired by the principle of a limiter, which performs sample-wise gain reduction of a given signal, we propose the framework of sample-wise gain inversion (SGI). We also present the musdb-XL-train dataset, consisting of 300k segments created by applying a commercial limiter plug-in for training real-world friendly de-limiter networks. Our proposed de-limiter network achieves excellent performance with a scale-invariant source-to-distortion ratio (SI-SDR) of 24.0 dB in reconstructing musdb-HQ from musdb-XL data, a limiter-applied version of musdb-HQ. The training data, codes, and model weights are available in our repository (https://github.com/jeonchangbin49/De-limiter).
Autores: Chang-Bin Jeon, Kyogu Lee
Última atualização: 2024-06-23 00:00:00
Idioma: English
Fonte URL: https://arxiv.org/abs/2308.01187
Fonte PDF: https://arxiv.org/pdf/2308.01187
Licença: https://creativecommons.org/licenses/by/4.0/
Alterações: Este resumo foi elaborado com a assistência da AI e pode conter imprecisões. Para obter informações exactas, consulte os documentos originais ligados aqui.
Obrigado ao arxiv pela utilização da sua interoperabilidade de acesso aberto.