Simple Science

Ciencia de vanguardia explicada de forma sencilla

# Ingeniería Eléctrica y Ciencia de Sistemas# Sonido# Interacción Persona-Ordenador# Procesado de Audio y Voz

Compositor: Una nueva forma de crear música a partir de palabras

El compositor usa textos como indicaciones para crear composiciones musicales complejas en formato MIDI.

Jakub Poćwiardowski, Mateusz Modrzejewski, Marek S. Tatara

― 7 minilectura


Compositor: Innovación deCompositor: Innovación deTexto a Músicanatural.musical usando indicaciones en lenguajeUn enfoque nuevo para la composición
Tabla de contenidos

Este artículo habla de un nuevo sistema llamado Composer que puede crear composiciones musicales usando descripciones de texto. El sistema puede generar canciones de varios minutos con diferentes elementos y estructuras musicales, todo en un formato digital conocido como MIDI.

Cómo Funciona el Sistema

Composer funciona tomando indicaciones en lenguaje natural y convirtiéndolas en música. Usa un tipo de modelo llamado modelo de transformador autorregresivo. Este modelo ayuda a convertir las entradas del usuario en una serie de parámetros para la música, escritos en un formato llamado JSON. Estos parámetros incluyen la firma de tiempo de la canción, las escalas utilizadas, progresiones de acordes y valores que representan emociones. A partir de estas entradas, se crean diferentes pistas musicales como melodía, bajo y percusión.

Una de las características clave de este sistema es su uso de algoritmos genéticos para generar melodías. Estos algoritmos imitan la selección natural, permitiendo que los elementos musicales evolucionen a través de cambios aleatorios y procesos de selección que favorecen los resultados más agradables. Este método aumenta la creatividad de la música generada.

Desafíos en la Generación Musical

Muchos avances recientes en la generación de música se han centrado en producir audio directamente en lugar de música simbólica. Si bien algunos sistemas pueden generar música en audio, hay menos que puedan crear eficazmente música simbólica a partir de descripciones de texto. Los datos de música simbólica son más difíciles de describir usando el lenguaje cotidiano, lo que representa un desafío para los sistemas diseñados para interpretar el lenguaje natural.

La mayoría de los sistemas de generación de música AI existentes dependen en gran medida de redes neuronales. Estos sistemas a menudo necesitan grandes conjuntos de datos para aprender, lo que puede llevarlos a producir música basada en patrones comunes, como progresiones de acordes populares o firmas de tiempo estándar. Como resultado, la música generada puede carecer de singularidad o creatividad.

El Papel de Composer

El sistema Composer busca superar estos desafíos permitiendo a los usuarios editar y modificar la música generada a través de nuevos requerimientos. De esta manera, los usuarios pueden crear composiciones más personalizadas sin estar limitados por las estructuras dominantes que se encuentran comúnmente en otros sistemas.

El sistema Composer está estructurado de tal manera que permite que diferentes partes sean probadas o desarrolladas por separado mientras aún trabajan juntas. Los siguientes pasos describen su funcionamiento:

  1. El sistema predice la estructura y parámetros de la composición basándose en entradas de texto.
  2. Se crean pistas melódicas y de percusión según la estructura proporcionada.
  3. Finalmente, las pistas generadas se combinan en un archivo MIDI.

Generando la Estructura Musical

Para crear la estructura musical, el sistema Composer utiliza un modelo de lenguaje para interpretar la entrada del usuario. Al modelo se le dan instrucciones específicas para que entregue los detalles en formato JSON. Este formato incluye información como el nombre de la canción, secciones, firmas de tiempo, tipos de pistas, progresiones de acordes y señales emocionales.

El sistema está diseñado para ser flexible, permitiendo a los usuarios solicitar cambios y ajustes a la música según varios criterios, como el estado de ánimo o el estilo.

Creando Pistas Melódicas

Las pistas melódicas en el sistema Composer se generan usando algoritmos genéticos. Estos algoritmos crean tres tipos de pistas:

  1. Pistas Sin Restricciones: Estas pueden reproducir una variedad de notas y son más flexibles.
  2. Pistas de Baja Frecuencia: Estas tienden a ser más simples y repetitivas.
  3. Pistas de Alta Frecuencia: Estas añaden textura y a menudo repiten frases.

Las notas musicales se codifican de tal manera que permiten varias duraciones, lo cual es esencial para crear sistemas de múltiples pistas. El Algoritmo Genético incluye varias operaciones, como inicialización aleatoria, técnicas de cruce y mutaciones con significado musical. Estas mutaciones introducen elementos musicales interesantes en lugar de solo cambios aleatorios.

Evaluación de la Calidad Musical

Para asegurar que las melodías sean agradables, el sistema incluye una función deaptitud. Esta función evalúa qué tan bien la música generada coincide con cualidades específicas deseadas, como tono, ritmo y musicalidad general. El sistema también considera la armonía entre diferentes pistas, asegurándose de que suenen bien juntas.

El sistema Composer permite varios modos de generación de melodías, lo que puede llevar a diferentes estilos y características en la música, adaptándose a las preferencias del usuario.

Generando Pistas de Percusión

Para los elementos de percusión, el sistema utiliza un enfoque diferente. En lugar de depender de modelos de aprendizaje profundo, incorpora reglas y métodos basados en probabilidades, incluyendo Cadenas de Markov. Esto asegura que incluso al trabajar con firmas de tiempo menos comunes, el sistema aún pueda crear patrones de batería interesantes y coherentes.

Los patrones de batería se representan en un formato binario, lo que facilita especificar qué instrumentos de percusión se tocan en cualquier momento. Se construyen patrones específicos para el bombo y la caja basándose en prácticas comunes de música. Si se encuentra con una firma de tiempo inusual, el sistema la descompone en partes más simples que puede manejar.

Progresiones de Acordes

Las progresiones de acordes forman la columna vertebral de una pieza musical, y en Composer, son definidas por el sistema basado en las indicaciones del usuario. El sistema ofrece diferentes métodos sobre cómo se pueden tocar los acordes. Por ejemplo, las notas pueden ser sostenidas durante un compás, tocadas juntas con longitudes variables, o secuenciadas en un orden ascendente o descendente.

Los valores emocionales proporcionados por el usuario influyen en la estructura y la voicing de los acordes, mejorando la expresividad de la música.

Evaluación de la Música Generada

Para probar la efectividad del sistema Composer, se realizan pruebas de escucha con participantes, algunos de los cuales tienen conocimientos musicales. Estas pruebas evalúan diversas cualidades de la música generada, como diversidad, impacto emocional y disfrute general.

Además, la música generada por Composer se compara con composiciones de un gran conjunto de datos MIDI, verificando qué tan bien coinciden con las descripciones proporcionadas.

Conclusión

El sistema Composer representa un gran paso adelante en la generación musical al ofrecer una nueva forma de crear piezas musicales ricas y complejas a partir de entradas de texto. Al combinar algoritmos genéticos con métodos probabilísticos, permite una salida más diversa y creativa mientras evita las limitaciones de depender únicamente de grandes conjuntos de datos.

A medida que los desarrollos en la generación musical AI continúan, el enfoque en técnicas basadas en optimización, como las usadas en Composer, puede llevar a composiciones más innovadoras que empujen los límites de lo que actualmente es posible en la creación musical.

Fuente original

Título: $\text{M}^\text{6}(\text{GPT})^\text{3}$: Generating Multitrack Modifiable Multi-Minute MIDI Music from Text using Genetic algorithms, Probabilistic methods and GPT Models in any Progression and Time signature

Resumen: This work introduces the $\text{M}^\text{6}(\text{GPT})^\text{3}$ composer system, capable of generating complete, multi-minute musical compositions with complex structures in any time signature, in the MIDI domain from input descriptions in natural language. The system utilizes an autoregressive transformer language model to map natural language prompts to composition parameters in JSON format. The defined structure includes time signature, scales, chord progressions, and valence-arousal values, from which accompaniment, melody, bass, motif, and percussion tracks are created. We propose a genetic algorithm for the generation of melodic elements. The algorithm incorporates mutations with musical significance and a fitness function based on normal distribution and predefined musical feature values. The values adaptively evolve, influenced by emotional parameters and distinct playing styles. The system for generating percussion in any time signature utilises probabilistic methods, including Markov chains. Through both human and objective evaluations, we demonstrate that our music generation approach outperforms baselines on specific, musically meaningful metrics, offering a viable alternative to purely neural network-based systems.

Autores: Jakub Poćwiardowski, Mateusz Modrzejewski, Marek S. Tatara

Última actualización: 2024-11-29 00:00:00

Idioma: English

Fuente URL: https://arxiv.org/abs/2409.12638

Fuente PDF: https://arxiv.org/pdf/2409.12638

Licencia: https://creativecommons.org/licenses/by-nc-sa/4.0/

Cambios: Este resumen se ha elaborado con la ayuda de AI y puede contener imprecisiones. Para obtener información precisa, consulte los documentos originales enlazados aquí.

Gracias a arxiv por el uso de su interoperabilidad de acceso abierto.

Más de autores

Artículos similares