Avances en la Síntesis de Sonidos Percusivos
Un nuevo método mejora la síntesis del sonido de los tambores al centrarse en los elementos transitorios agudos.
― 7 minilectura
Tabla de contenidos
En los últimos años, ha habido un interés creciente en usar técnicas avanzadas para crear y manipular sonidos, especialmente para instrumentos musicales. Un enfoque específico llamado Procesamiento de Señal Digital Diferenciable (DDSP) permite que estos métodos de generación de sonido trabajen de cerca con sistemas de aprendizaje automático. Esta combinación ayuda a crear sonidos más ricos con menos requisitos de datos en comparación con los métodos tradicionales.
Mientras que muchos estudios se han centrado en instrumentos musicales tradicionales, ha habido menos atención a los sonidos de percusión, como los tambores. Estos sonidos tienen características únicas que son cruciales para la percepción musical, especialmente los sonidos agudos cuando se golpea un tambor. Los métodos actuales a menudo pasan por alto estos sonidos iniciales agudos, lo que lleva a una falta de claridad al sintetizar audio de percusión.
Este trabajo tiene como objetivo crear una nueva forma de generar sonidos de percusión que incluya un enfoque en estos componentes de sonido agudos. El método propuesto combina Ruido y sonidos sinuosos con una nueva técnica para modelar mejor el sonido inicial de golpeo de los tambores.
La Necesidad de una Mejor Síntesis de Tambores
Los sonidos de tambores a menudo se sintetizan utilizando métodos que se centran en crear cualidades tonales, como el tono. Sin embargo, los tambores producen sonidos únicos conocidos como Señales transitorias, que son cambios rápidos en el sonido que ocurren cuando se golpea un tambor. Estas transiciones son importantes para la percepción general del sonido, pero a menudo no se capturan bien en las técnicas actuales.
Investigaciones anteriores han demostrado que separar las transiciones del sonido principal puede llevar a mejores resultados. Algunas técnicas proponen modelar estas transiciones por separado y luego combinarlas de nuevo en el sonido general. Sin embargo, encontrar maneras efectivas de manejar estas señales transitorias sigue siendo un reto.
Para abordar esta brecha, nuestro método incorpora un enfoque moderno llamado Redes Neuronales Temporales Convolucionales (TCNs). Esta técnica puede modelar eficazmente estas señales transitorias, lo que permite una representación más precisa de los sonidos de tambor.
Metodología
Nuestro enfoque comienza sintetizando sonidos de tambores utilizando una combinación de modelos sinusoidales y ruido. El modelo sinusoidal captura las partes tonales del sonido, mientras que el modelo de ruido se utiliza para representar la textura y la agudeza del sonido. El TCN será responsable de generar las porciones transitorias de los sonidos de tambor.
Alimentamos nuestro método con un conjunto diverso de muestras de audio de tambores electrónicos y acústicos. Este conjunto de datos está cuidadosamente preparado para asegurar que sea de alta calidad e incluya una variedad de tipos de tambores. Al entrenar nuestros modelos con este conjunto de datos, podemos mejorar la precisión y calidad de los sonidos sintetizados.
Proceso de Generación de Sonido
El primer paso en nuestro proceso es analizar el audio de tambor y extraer características importantes que representan los componentes tonales. Usamos un rastreador sinusoidal para identificar y capturar estos aspectos tonales. Este paso es crítico para crear una base para los sonidos sintetizados.
Luego, implementamos un pipeline de generación de ruido. Esta parte se enfoca en producir las texturas que se encuentran en los sonidos de tambor, lo que añade profundidad y realismo a la síntesis. El generador de ruido toma información detallada sobre el audio para crear una salida variada que imita las imperfecciones que a menudo se encuentran en los sonidos de tambores reales.
Finalmente, introducimos el TCN, que procesa la señal de entrada para generar los componentes transitorios. Esta red está diseñada para aprender a crear cambios de sonido agudos que ocurren con el golpeo de un tambor. El TCN ayuda a lograr un equilibrio entre las transiciones y el sonido general, asegurando que el audio generado se mantenga claro y distinto.
Evaluación de Resultados
Una vez que hemos entrenado nuestros modelos, es esencial evaluar qué tan bien funcionan al recrear los sonidos de diferentes tipos de tambores. Empleamos varias métricas para evaluar la calidad del audio sintetizado, enfocándonos principalmente en la claridad del sonido inicial y la reconstrucción general del audio de tambor.
Nuestros hallazgos indican que los modelos que utilizan el TCN generalmente tienen un mejor desempeño al recrear los golpes iniciales de los tambores. Esta mejora es particularmente evidente en tambores acústicos, como los de bombo y los de caja. Sin embargo, para algunos otros tipos de tambores, como los platillos, los métodos tradicionales sin el TCN mostraron mejores resultados.
Los resultados del entrenamiento demuestran que, aunque nuestro enfoque destaca en capturar los componentes transitorios, puede introducir algunos artefactos o cambios no deseados en la fase de decaimiento del sonido. Esta es un área que reconocemos que necesita más refinamiento, ya que afecta el flujo natural del audio después del golpe inicial.
Perspectivas de los Experimentos
Visualizar las muestras de audio a través de varias técnicas proporciona información sobre qué tan bien nuestros modelos están capturando las características de diferentes sonidos de tambores. Al graficar los resultados de nuestro codificador transitorio, podemos ver cómo diferentes tipos de tambores se agrupan en el espacio sonoro.
En general, los resultados muestran que nuestro modelo captura exitosamente las características únicas requeridas para cada tipo de sonido de tambor. Las distinciones entre los sonidos acústicos y electrónicos son claras, lo que indica que el modelo puede representar adecuadamente las características sonoras de varios tipos de tambores.
Esta capacidad abre la posibilidad de un control más avanzado sobre cómo se sintetizan los sonidos, allanando el camino para usos más creativos en la producción musical.
Direcciones Futuras
Aunque hemos logrado un progreso significativo en la captura y síntesis de sonidos de percusión, aún queda mucho por explorar. Uno de los principales desafíos es mejorar los métodos para equilibrar mejor los sonidos transitorios iniciales con los componentes de decaimiento. Se necesita más trabajo para minimizar los artefactos que pueden aparecer en la fase de decaimiento del sonido.
La investigación futura puede incluir aprovechar nuevas técnicas que puedan refinar las estimaciones de frecuencia que actualmente son desafiantes en la síntesis. Explorar opciones como autoencoders variacionales podría también permitir un control de mayor nivel sobre cómo se crean y manipulan los sonidos de tambor.
Hay potencial para aplicar estos hallazgos no solo en la producción musical tradicional, sino también en la creación de nuevas formas de arte y experiencias interactivas utilizando sonidos de tambor sintetizados. Al mejorar nuestra comprensión y capacidades en esta área, podemos llevar a enfoques innovadores en la creación musical que aún no se han realizado por completo.
En general, nuestro trabajo representa un paso hacia métodos más sofisticados de sintetizar sonidos de tambor que respetan las cualidades únicas de los instrumentos de percusión mientras incorporan los beneficios del aprendizaje automático y técnicas avanzadas de procesamiento de señales.
Título: Differentiable Modelling of Percussive Audio with Transient and Spectral Synthesis
Resumen: Differentiable digital signal processing (DDSP) techniques, including methods for audio synthesis, have gained attention in recent years and lend themselves to interpretability in the parameter space. However, current differentiable synthesis methods have not explicitly sought to model the transient portion of signals, which is important for percussive sounds. In this work, we present a unified synthesis framework aiming to address transient generation and percussive synthesis within a DDSP framework. To this end, we propose a model for percussive synthesis that builds on sinusoidal modeling synthesis and incorporates a modulated temporal convolutional network for transient generation. We use a modified sinusoidal peak picking algorithm to generate time-varying non-harmonic sinusoids and pair it with differentiable noise and transient encoders that are jointly trained to reconstruct drumset sounds. We compute a set of reconstruction metrics using a large dataset of acoustic and electronic percussion samples that show that our method leads to improved onset signal reconstruction for membranophone percussion instruments.
Autores: Jordie Shier, Franco Caspe, Andrew Robertson, Mark Sandler, Charalampos Saitis, Andrew McPherson
Última actualización: 2023-09-12 00:00:00
Idioma: English
Fuente URL: https://arxiv.org/abs/2309.06649
Fuente PDF: https://arxiv.org/pdf/2309.06649
Licencia: https://creativecommons.org/licenses/by/4.0/
Cambios: Este resumen se ha elaborado con la ayuda de AI y puede contener imprecisiones. Para obtener información precisa, consulte los documentos originales enlazados aquí.
Gracias a arxiv por el uso de su interoperabilidad de acceso abierto.