KI in Musik: Kreationswerkzeuge und Techniken
Eine Übersicht über KI-Tools zur Musikproduktion und ihre einzigartigen Funktionen.
― 12 min Lesedauer
Inhaltsverzeichnis
In dieser Arbeit schauen wir uns verschiedene Tools und Modelle an, die dabei helfen, Musik mit künstlicher Intelligenz (KI) zu erstellen. Diese Tools stammen sowohl aus der Forschung als auch aus kommerziellen Quellen. Wir haben diese Methoden zur Musikgenerierung in drei Gruppen sortiert: die, die Parameter nutzen, die, die Text verwenden, und die, die visuelle Eingaben verwenden.
Unsere Umfrage zeigt eine breite Palette von Funktionen und Möglichkeiten, die diese Tools bieten, und sie sprechen sowohl Gelegenheitshörer als auch professionelle Musiker an. Jedes Tool hat seine eigenen Vor- und Nachteile, und wir haben eine Liste dieser Faktoren zusammengestellt, um den Nutzern zu helfen, das richtige Tool für ihre Bedürfnisse auszuwählen. Darüber hinaus bietet die Umfrage Einblicke, wie KI-Musikgenerierung funktioniert und welche Herausforderungen damit verbunden sind.
Musik ist ein wichtiger Teil des menschlichen Lebens und hat sich im Laufe der Zeit stark verändert, indem sie sich an verschiedene Kulturen und Technologien angepasst hat. Mit dem Aufstieg von KI und maschinellem Lernen hat sich auch die Art und Weise, wie Musik erstellt wird, verändert. KI-Musikgenerierungstools ermöglichen es Musikern, ihre musikalischen Ideen auf neue Weise auszudrücken und gleichzeitig ihr Vertrauen im Umgang mit Technologie zu stärken. Diese Tools lernen aus grossen Musiksammlungen, um neue Musik zu kreieren, die ähnlich klingt wie das, was Menschen produzieren.
In den letzten Jahren hat das Deep Learning viele Bereiche der Informatik verändert, einschliesslich der Musikgenerierung. Verschiedene Deep-Learning-Modelle können kurze Melodien erstellen, aber komplexere Musik mit längeren Melodien ist dank fortschrittlicher neuronaler Netzwerke wie MusicVAE und TransformerVAE sowie generativer Modelle wie Denoising Diffusion Probabilistic Models entstanden. Diese Modelle können jedoch längere Melodien erzeugen, die möglicherweise kein klares Thema oder eine klare Richtung beibehalten. Deep Learning unterstützt auch die Erstellung von Harmonien, die Melodien ergänzen, während Stiltransfertechniken Musik von einem Stil in einen anderen ändern können. Einige Forscher haben darauf hingewiesen, dass die Verwendung von Deep Learning in der Musikgenerierung manchmal zu Problemen mit Kreativität und Kontrolle führen kann, da diese Modelle oft stark auf bestehenden Daten basieren.
Diese Umfrage beginnt mit der Erklärung von Schlüsselbegriffen, die in der Musikgenerierung relevant für KI-generierte Musik sind. Danach schauen wir uns den aktuellen Stand der KI-Musikgenerierungstools und -modelle an und bewerten deren Funktionen und Einschränkungen. Schliesslich analysieren wir aktuelle Tools und Techniken, um einen Überblick darüber zu geben, was KI-basierte Musikkomposition leisten kann und welche Herausforderungen für bessere Ergebnisse angegangen werden müssen.
Konzepte der Musikkomposition
Um KI-generierte Musik zu entwickeln, ist es wichtig, einige grundlegende Konzepte zu verstehen, die formen, wie Musik strukturiert ist.
Ton ist ein Klang mit einer bestimmten Höhe. Er wird durch Merkmale wie Frequenz, Lautstärke (Amplitude) und Klangqualität (Timbre) definiert. Der Ton ist der grundlegende Baustein der Musik, der hilft, Melodien und Akkorde zu formen.
Tonhöhe bezieht sich darauf, wie hoch oder tief ein Klang ist. Musik ist normalerweise um eine bestimmte Tonhöhe zentriert, was die Beziehung zwischen verschiedenen Noten definiert.
Timbre, oft als die Farbe oder Qualität des Klangs bezeichnet, ist das, was verschiedene Instrumente einzigartig klingen lässt, selbst wenn sie die gleiche Höhe und Lautstärke spielen.
Harmonie ist, wenn verschiedene Tonhöhen oder Töne gleichzeitig gespielt werden, um einen angenehmen Klang zu erzeugen.
Akkorde sind Gruppen von Noten, die zusammen gespielt werden, um die Grundlage für Harmonie in der Musik zu bieten.
Tempo beschreibt, wie schnell oder langsam ein Musikstück gespielt wird, normalerweise gemessen in Schlägen pro Minute (BPM). Das Tempo kann die emotionale Stimmung eines Stücks erheblich verändern. Schnellere Tempi können Aufregung erzeugen, während langsamere Tempi Ruhe oder Traurigkeit hervorrufen können. KI-generierte Musiktools können das Tempo anpassen, um spezifische emotionale Effekte zu erzielen.
Lautstärke beschreibt, wie laut oder leise ein Klang ist, bezogen auf seine Intensität.
Stil bezieht sich auf Merkmale und Techniken, die die einzigartige musikalische Identität eines Komponisten oder Interpreten definieren. Die Analyse vorhandener Musik hilft KI-Tools, Stile von verschiedenen Komponisten oder Genres nachzuahmen und neue Werke zu produzieren, die diese Einflüsse widerspiegeln.
Refrain ist ein wiederholter Abschnitt in einem Lied, der oft eine eingängige Melodie oder Zeilen enthält, die das Wesen des Stücks erfassen.
Polyphone Musik besteht aus mehreren Melodien, die zur gleichen Zeit gespielt oder gesungen werden und einen reichhaltigeren Klang erzeugen im Vergleich zur monophonen Musik, die nur eine Melodie enthält.
MIDI (Musical Instrument Digital Interface) ermöglicht es verschiedenen elektronischen Musikinstrumenten und Software, zu kommunizieren, was den Austausch von musikalischen Daten wie Noten und deren Intensität ermöglicht.
Key Velocity misst, wie stark eine Taste auf einem MIDI-Instrument gedrückt wird, normalerweise als Zahl zwischen 0 und 127 angegeben.
ABC-Notation ist eine einfache Möglichkeit, Musik mit regulären Textzeichen zu schreiben, die normalerweise in der Volksmusik verwendet wird, um Melodien online zu teilen.
Pianoroll ist ein visuelles Tool in Musiksoftware, das MIDI-Daten in einem Raster darstellt, wobei die Zeit auf einer Achse und die Tonhöhe auf einer anderen angezeigt wird. Nutzer können die Länge und Intensität von Noten anpassen, was es für die Musikgenerierung unerlässlich macht.
Chromagramm visualisiert die Intensität verschiedener Tonhöhen in der Musik über die Zeit.
Begleitung bezieht sich auf die harmonischen Elemente, die die Hauptmelodie eines Liedes unterstützen.
Zusammenspiel der Konzepte in KI-generierter Musik
KI-Musikgenerierungstools können Musik erzeugen, die auf eine bedeutungsvolle und angenehme Weise fliesst, indem sie verstehen, wie Harmonie und Akkorde funktionieren. Indem sie Muster in beliebten Liedrefrains erkennen, können diese Tools eingängige und einprägsame Melodien erstellen.
Zusammenfassend lässt sich sagen, dass das Verständnis dieser musikalischen Konzepte entscheidend ist, um fortschrittliche KI-Musiktools zu entwickeln, die Musik erschaffen können, die sowohl menschlich als auch emotional berührend ist. Durch effektives Modellieren dieser Elemente kann KI neue und innovative Musikformen beitragen und eine Brücke zwischen traditionellem Musikmachen und technologiegetriebener Kreativität schlagen.
Datensammlung
Um eine umfassende Liste von KI-Musikgenerierungstools zusammenzustellen, haben wir eine Keyword-Suchmethode auf verschiedenen Plattformen verwendet. Wir haben auch Hilfe von KI-Sprachmodellen wie ChatGPT und Bard in Anspruch genommen, um unsere Keyword-Liste zu verfeinern und relevante Webressourcen zu finden.
Die Plattformen, die wir für die Suche verwendet haben, umfassen Google Search, Google Scholar, Twitter, GitHub, YouTube und Reddit, unter anderem. Die Keywords, auf die wir uns konzentriert haben, sind KI-Musik, KI-Musikgenerierung, maschinelles Lernen in der Musik und Musiktechnologie.
Der Aufforderung, die wir verwendet haben, fragte nach Empfehlungen für Plattformen oder Keywords, die wir in unserer Suche möglicherweise übersehen haben.
Taxonomie von Musikgenerierungstools
Wir werden einen Zeitstrahl von Musikgenerierungsmodellen bereitstellen, der ihre Entwicklung von frühen nicht-neuronalen Methoden zu den neuesten KI-basierten Modellen zeigt, die keine spezifischen Parameter benötigen.
Nicht-neuronale Netzwerkansätze
Historisch gesehen verwendeten Musikgenerierungstools Ansätze wie Markov-Ketten, regelbasierte Modelle und evolutionäre Algorithmen, die normalerweise einige menschlich geleitete Eingaben erforderten, um Musik zu erstellen.
Markov-Ketten: Das sind mathematische Modelle, die zukünftige Zustände nur auf Basis des aktuellen Zustands vorhersagen, nicht der vergangenen Aktionen. Sie wurden verwendet, um sanfte Melodien und benutzerdefinierte Musik basierend auf Stimmungen zu erzeugen.
Regelbasierte Modelle: Diese basieren auf festgelegten Regeln zur Erstellung von Musik. Zum Beispiel könnte ein System Harmonien basierend auf bekannten harmonischen Prinzipien generieren.
Evolutionäre Algorithmen: Diese simulieren natürliche Selektion, indem sie die besten Musiksequenzen auswählen und diese durch Prozesse wie Mutation verfeinern. Viele Systeme haben Echtzeit-Feedback von Menschen integriert, um die Musikgenerierung zu verbessern.
Musikgenerierung auf Basis von neuronalen Netzwerken
Jetzt werden wir systematisch die Musikgenerierungsmodelle untersuchen, die von neuronalen Netzwerken betrieben werden. Wir werden diesen Abschnitt in drei Teile unterteilen: parameterbasierte Modelle, promptbasierte Modelle und visuelle Modelle. Für jedes einzelne werden wir beschreiben, wie sie funktionieren und ihre Stärken und Schwächen.
Parameterbasierte Musikgenerierung
Parameterbasierte Modelle benötigen spezifische Eingaben, um Musik zu generieren. Dazu können Attribute wie Tempo oder Stimmung gehören. Benutzer können den Generierungsprozess direkter steuern, da sie diese Eingaben festlegen können.
Überblick über Magenta: Dieses Open-Source-Projekt zielt darauf ab, maschinelles Lernen in die Musikproduktion zu integrieren. Einige der bekannten Modelle innerhalb von Magenta sind MusicVAE, NSynth und Melody RNN.
Hauptmerkmale von Magenta: Das Kernkonzept dreht sich um Musiknotenfolgen, eine vereinfachte Darstellung einer Reihe von Musiknoten. Die Magenta-Modelle können verschiedene Aspekte von Musik erfassen, wodurch Benutzer leicht Kompositionen erstellen und bearbeiten können.
Vorteile und Einschränkungen von Magenta
Magenta hat viele Vorteile, darunter, dass es Open Source ist und eine grosse Vielfalt an Modellen für die Erstellung und Manipulation von Musik bietet. Allerdings kann seine Komplexität technisches Wissen erfordern, und die generierte Musik muss oft weiter angepasst werden, um sie richtig hinzubekommen.
Überblick über Jukebox
Jukebox ist ein weiteres neuronales Netzwerk-Tool, das Musik erzeugen kann, einschliesslich Gesang, in verschiedenen Stilen unter Verwendung eines Modells namens VQ-VAE und Transformer.
Eigenschaften und Fähigkeiten: Es kann bestehende Songs fortsetzen oder ganze originale Stücke basierend auf vom Benutzer ausgewählten Genres und Künstlern erstellen. Es nutzt eine grosse Datensammlung von Songs, um zu lernen.
Vorteile und Einschränkungen von Jukebox
Jukebox ist leistungsstark aufgrund seines Einsatzes komplexer Algorithmen, die Musik komprimieren und gleichzeitig die Qualität beibehalten. Ihre Leistung erfordert jedoch erhebliche Computerressourcen, was für viele Nutzer eine Hürde darstellen kann.
Überblick über MuseNet
MuseNet ist darauf ausgelegt, vierminütige Kompositionen mit bis zu zehn Instrumenten zu erzeugen und verschiedene Stile zu vermischen.
Eigenschaften und Fähigkeiten: MuseNet kann Musik basierend auf bestimmten Komponisten oder Stilen erstellen, indem es fortschrittliche Transformermodelle verwendet.
Vorteile und Einschränkungen von MuseNet
MuseNet kann kohärente Musik erzeugen, die spezifische Stile genau imitiert. Allerdings kann es manchmal nicht die genauen Instrumentenwahlen erzeugen, die der Benutzer beabsichtigt.
Überblick über Music Transformer
Music Transformer ist für lange musikalische Sequenzen ausgelegt.
Eigenschaften und Fähigkeiten: Es kann Musik über längere Zeiträume erzeugen und verwendet Selbstaufmerksamkeitsmechanismen zur Schaffung von Strukturen.
Vorteile und Einschränkungen von Music Transformer
Obwohl es längere Stücke erstellen kann, kann die Qualität leiden, wenn die Trainingsdaten nicht ausreichend vielfältig sind.
Überblick über Musikgenerierung mit Sentiment
Dieses Modell kann Musik generieren, indem es bestimmte Emotionen berücksichtigt.
Eigenschaften und Fähigkeiten: Es erzeugt Musik basierend auf Stimmungsbeschreibungen und kann den emotionalen Gehalt von Musik analysieren.
Vorteile und Einschränkungen von Musikgenerierung mit Sentiment
Obwohl es Musik erzeugen kann, die mit Emotionen verbunden ist, sind Verbesserungen notwendig, um eine bessere Leistung in weniger klaren emotionalen Kontexten zu erreichen.
Prompt-basierte Musikgenerierungstools
Diese Tools verwenden Texteingaben zur Musikgenerierung.
Überblick über Riffusion
Riffusion erzeugt Audio aus Texteingaben und visuellen Bildern.
Vorteile und Einschränkungen von Riffusion
Riffusion ist benutzerfreundlich und produziert hochwertige Musik. Allerdings ist seine Flexibilität begrenzt, da die Ausgabe stark von der Qualität der Eingabeaufforderungen abhängt.
Überblick über Noise2Music
Noise2Music untersucht den Einsatz fortschrittlicher Diffusionsmodelle zur Erzeugung hochwertiger Musik aus Text.
Vorteile und Einschränkungen von Noise2Music
Während es hochwertige Musik basierend auf reichhaltigen Beschreibungen produzieren kann, könnte es durch Vorurteile aus den Trainingsdaten beeinflusst werden.
Überblick über Moûsai
Moûsai verwendet einen zweistufigen Prozess, um Musik aus Text zu erstellen.
Vorteile und Einschränkungen von Moûsai
Es kann lange und hochwertige Musik erzeugen, benötigt aber möglicherweise mehr Rechenressourcen.
Überblick über MusicLM
MusicLM konzentriert sich auf die Erzeugung von hochqualitativer Musik aus detaillierten Textbeschreibungen.
Vorteile und Einschränkungen von MusicLM
Trotz seiner hochwertigen Ausgaben wurde es nicht als Open-Source-Projekt veröffentlicht.
Visuelle Musikgenerierungstools
Diese Tools verwenden visuelle Eingaben, wie Bilder oder Videos, zur Musikgenerierung.
Überblick über Controllable Music Transformer
Dieses Modell generiert Hintergrundmusik, die zum Rhythmus und zur Stimmung eines bestimmten Videos passt.
Vorteile und Einschränkungen von Controllable Music Transformer
Es produziert Musik, die gut zu Videos passt, kann aber Einschränkungen haben, wenn es um längere Zeiträume geht.
Überblick über V-MusProd
V-MusProd generiert Musik basierend auf Videos, indem es verschiedene Merkmale analysiert.
Vorteile und Einschränkungen von V-MusProd
Es zeigt vielversprechende Ergebnisse bei der Erzeugung hochwertiger Musik, konzentriert sich derzeit aber nur auf Klavierstücke.
Überblick über Foley Music
Foley Music erstellt Musik, die den Körperbewegungen entspricht, die in Videos aufgezeichnet werden.
Vorteile und Einschränkungen von Foley Music
Es funktioniert gut bei verschiedenen Videoarten, benötigt aber Synthesizer für die Klangausgabe.
Kommerzielle Musikgenerierungstools
Der Markt ist voll von kommerziellen Tools, die es Nutzern ohne musikalischen Hintergrund ermöglichen, einfach Musik zu erstellen. Diese Tools bieten normalerweise webbasierte Interfaces, um Aspekte wie Stimmung und Tempo anzupassen und generieren schnell Musik basierend auf den Nutzerpräferenzen.
Obwohl sie einfach zu bedienen sind, erklären viele kommerzielle Tools nicht ihre zugrunde liegende Technologie. Dies kann zu Unsicherheiten bei den Nutzern führen, wie ihre generierte Musik funktioniert, was die Möglichkeiten zur erweiterten Anpassung einschränkt.
Zusammenfassend lässt sich sagen, dass diese Umfrage verschiedene KI-Musikgenerierungstools hervorhebt, die auf unterschiedlichen Eingabemethoden wie Parametern, Eingabeaufforderungen und Videos basieren. Jedes Tool hat seine eigenen Stärken und Schwächen. Der aktuelle Stand der KI in der Musikgenerierung zeigt vielversprechende Ansätze zur Transformation der Musikindustrie und bietet neue Wege für Kreativität und Ausdruck. Wir erwarten, dass zukünftige Entwicklungen zu noch besseren und benutzerfreundlicheren KI-Musikgenerierungstools führen.
Titel: A Survey of AI Music Generation Tools and Models
Zusammenfassung: In this work, we provide a comprehensive survey of AI music generation tools, including both research projects and commercialized applications. To conduct our analysis, we classified music generation approaches into three categories: parameter-based, text-based, and visual-based classes. Our survey highlights the diverse possibilities and functional features of these tools, which cater to a wide range of users, from regular listeners to professional musicians. We observed that each tool has its own set of advantages and limitations. As a result, we have compiled a comprehensive list of these factors that should be considered during the tool selection process. Moreover, our survey offers critical insights into the underlying mechanisms and challenges of AI music generation.
Autoren: Yueyue Zhu, Jared Baca, Banafsheh Rekabdar, Reza Rawassizadeh
Letzte Aktualisierung: 2023-08-23 00:00:00
Sprache: English
Quell-URL: https://arxiv.org/abs/2308.12982
Quell-PDF: https://arxiv.org/pdf/2308.12982
Lizenz: https://creativecommons.org/licenses/by/4.0/
Änderungen: Diese Zusammenfassung wurde mit Unterstützung von AI erstellt und kann Ungenauigkeiten enthalten. Genaue Informationen entnehmen Sie bitte den hier verlinkten Originaldokumenten.
Vielen Dank an arxiv für die Nutzung seiner Open-Access-Interoperabilität.
Referenz Links
- https://bard.google.com
- https://reddit.com
- https://news.ycombinator.com
- https://huggingface.co
- https://github.com/openai/guided-diffusion
- https://openai.com/blog/chatgpt
- https://www.anthropic.com/product
- https://github.com/magenta
- https://magenta.tensorflow.org/datasets/nsynth
- https://github.com/openai/jukebox
- https://github.com/jason9693/MusicTransformer-tensorflow2.0
- https://github.com/jason9693/musictransformer-pytorch
- https://huggingface.co/runwayml/stable-diffusion-v1-5
- https://www.riffusion.com/
- https://anonymous0.notion.site/anonymous0/Mo-sai-Text-to-Audio-with-Long-Context-Latent-Diffusion-b43dbc71caf94b5898f9e8de714ab5dc
- https://github.com/mdeff/fma
- https://github.com/facebookresearch/audiocraft/blob/main/demo.ipynb
- https://colab.research.google.com/drive/1fxGqfg96RBUvGxZ1XXN07s3DthrKUl4-?usp=sharing
- https://huggingface.co/spaces/facebook/MusicGen
- https://mubert.com
- https://boomy.com
- https://ecrettmusic.com
- https://soundraw.io
- https://app.songr.ai
- https://www.aiva.ai